What's the best mini PC for running local LLMs in 2026?

For most users it's the Mac mini M4 Pro with 48GB — quiet, low-power, and capable up to ~32B models. If you need to run 70B+ models, an AMD Strix Halo box with 128GB is the value choice, and the NVIDIA DGX Spark is the premium CUDA option.

How much RAM do I need to run a 70B-parameter model?

A 70B model quantized to Q4 needs roughly 40–48GB just for weights, plus headroom for context. In practice you want a 64GB machine at minimum, and 128GB to run it comfortably with a large context window. That rules out the current 48GB Mac mini for the largest 70B setups and points to the 128GB unified-memory boxes.

Why is the NVIDIA DGX Spark slow at generating tokens despite costing $4,000+?

Because token generation is limited by memory bandwidth, and the Spark's 273 GB/s is modest — the same as a Mac mini M4 Pro. Its strength is prompt processing (about 1,723 tok/s on a 120B model) and 128GB of capacity, not raw generation speed, where standardized tests put it around 38 tok/s (optimized stacks can reach ~50–60).

Is unified memory as good as a dedicated GPU's VRAM?

It's a trade. Unified memory gives you far more capacity (up to 128GB) so you can run models that won't fit on any single consumer GPU, but at much lower bandwidth than VRAM. For large models that won't fit otherwise, it's the only practical option; for smaller models a discrete GPU is faster.

Can a Mac mini run a 70B model?

Not really, anymore. With the 64GB tier pulled in the 2026 shortage, the top Mac mini M4 Pro you can buy has 48GB — enough for a tight, heavily quantized 70B at best, with practical headroom topping out around 32B at Q4. For 70B work, step up to a 128GB machine like a Strix Halo box, a Mac Studio, or the DGX Spark.

Are AMD Strix Halo mini PCs good for AI, or is the software too rough?

They're genuinely capable — 128GB of memory and generation speeds near the DGX Spark for a fraction of the price. The caveat is software: ROCm and llama.cpp work but are less polished than Apple's MLX or NVIDIA's CUDA, and prompt processing is weak. If you're comfortable with some setup, the value is excellent.

How much power and noise should I expect from these machines?

The Mac mini is the quietest and most efficient, at ~30W under load and effectively silent. Strix Halo boxes draw 80–120W with audible but modest fans. The DGX Spark ships with a 240W power adapter. All are dramatically quieter and lower-power than a multi-GPU desktop, which can pull 300–450W or more.

Die besten Mini-PCs für lokale KI im Jahr 2026: Ein Kaufleitfaden

Vor zwei Jahren bedeutete das Ausführen eines leistungsfähigen Sprachmodells zu Hause einen Turm voller zwei oder drei GPUs, eine 1.000-Watt-Stromversorgung und ein Lüfterprofil, das wie ein Haartrockner klang. Im Jahr 2026 können Sie jedoch die meiste dieser Arbeit mit einem Gerät erledigen, das in Ihre Handfläche passt und Strom wie ein Laptop verbraucht. Der Haken dabei ist, dass sich der Markt für Mini-PCs in Geräte aufgeteilt hat, die optisch ähnlich wirken, sich aber beim Laden eines Modells sehr unterschiedlich verhalten.

Dieser Leitfaden schafft hier Klarheit. Wir vergleichen die vier Klassen kleiner Formfaktor-Geräte, die aktuell tatsächlich für lokale KI relevant sind – Apples Mac mini, NVIDIAs DGX Spark, AMDs Ryzen AI Max+ („Strix Halo“)-Systeme sowie Intel-Mini-PCs mit integrierter NPU – anhand verifizierter Spezifikationen, aktueller Preise und realer Token-pro-Sekunde-Werte. Am Ende dieses Artikels wissen Sie genau, welches Gerät für die von Ihnen gewünschten Modelle geeignet ist – und welche Angaben im Datenblatt eher Marketing als echte Leistung widerspiegeln.

Wichtigste Erkenntnisse

Die Speicherkapazität bestimmt, was passt; die Speicherbandbreite bestimmt, wie schnell es läuft. Beide Werte sind entscheidend, doch das Marketing betont üblicherweise nur einen davon.
Das Mac mini M4 Pro (~ 1.999 US-Dollar, 48 GB) ist der beste Allrounder für die meisten Nutzer: leise, bei Last ca. 30 W Stromverbrauch und problemlos bis hin zu Modellen mit rund 32 Milliarden Parametern nutzbar. Beachten Sie, dass die 64-GB-Variante infolge des Speicherengpasses im Jahr 2026 vom Markt genommen wurde; daher stellt 48 GB derzeit die praktische Obergrenze dar.
NVIDIAs DGX Spark (zum Startpreis von 3.999 US-Dollar, danach ab Februar 2026 für 4.699 US-Dollar) bietet 128 GB und übertrifft bei der Prompt-Verarbeitung alle Konkurrenten – seine Bandbreite von 273 GB/s begrenzt die Token-Generierung jedoch bei standardisierten Tests auf etwa 38 Tok/s für ein 120-Milliarden-Parameter-Modell.
Mini-PCs mit AMD Strix Halo (ab ca. 1.500 US-Dollar) erreichen dank derselben Technik des einheitlichen Arbeitsspeichers dieselbe Generierungsgeschwindigkeit wie der Spark zu einem Bruchteil des Preises, liegen jedoch deutlich hinterher, wenn es um die Prompt-Verarbeitung geht.
Intel-Mini-PCs eignen sich für kleine Modelle und NPU-Offload, nicht für Aufgaben der 70-Milliarden-Parameter-Klasse – nützlich und günstig, aber einer anderen Kategorie zuzuordnen.
Kein Mini-PC übertrifft einen Multi-GPU-Desktop hinsichtlich reiner Generierungsgeschwindigkeit. Sie kaufen diese Geräte wegen ihrer kompakten Größe, ihres geräuschlosen Betriebs, ihres geringen Stromverbrauchs und ihres großen einheitlichen Arbeitsspeichers – nicht wegen maximaler Durchsatzleistung.

Einheitlicher Arbeitsspeicher vs. VRAM: Das eine Konzept, das alles erklärt

Jede der folgenden Empfehlungen basiert auf dieser Unterscheidung – daher lohnt es sich, kurz innezuhalten.

Eine herkömmliche GPU verfügt über ihren eigenen dedizierten VRAM. Eine RTX 4090 besitzt beispielsweise 24 GB; passt Ihr Modell inklusive Kontext nicht in diese 24 GB, läuft es auf dieser Karte einfach nicht – Punkt. VRAM ist schnell – bei der 4090 liegt die Bandbreite bei rund 1.008 GB/s – doch relativ zur Größe moderner Modelle steht nie viel davon zur Verfügung.

Einheitlicher Arbeitsspeicher kehrt diesen Trade-off um. Apples M-Serie, NVIDIAs GB10 und AMDs Strix Halo teilen sich jeweils einen einzigen Speicherpool zwischen CPU und GPU. Ein System mit 128 GB kann daher mehr als 96 GB für ein Modell reservieren. So kann ein palmgroßes Gerät ein 120-Milliarden-Parameter-Modell ausführen, das auf keiner einzelnen Consumer-GPU Platz finden würde. Der Preis dafür ist die Bandbreite: Einheitlicher LPDDR5x-Speicher erreicht lediglich etwa 120–275 GB/s – nur ein Bruchteil der Bandbreite diskreter VRAM-Module. Da die Token-Generierung speicherbandbreitengebunden ist, legt diese Bandbreite Ihre Token-pro-Sekunde-Rate fest – unabhängig davon, wie viel Rechenleistung der Chip theoretisch bereitstellen könnte. Behalten Sie diese beiden Zahlen (Kapazität und Bandbreite) im Hinterkopf, und jedes Datenblatt wird plötzlich lesbar. Für das vollständige Bild aus Sicht der GPU lesen Sie unseren ergänzenden Artikel zum beste GPUs für lokale LLMs im Jahr 2026.

Ein Hinweis zum Benchmark-Modell, das wir im Folgenden verwenden: gpt-oss-120B ist ein Mixture-of-Experts-Modell mit insgesamt etwa 117 Milliarden Parametern, wobei pro Token jedoch nur ca. 5,1 Milliarden aktiv sind. Genau diese MoE-Architektur ermöglicht es, eine quantisierte Version dieses Modells auch auf diesen Geräten mit einheitlichem Arbeitsspeicher und beschränkter Bandbreite auszuführen – und zwar mit nutzbaren Geschwindigkeiten.

Apple Mac mini (M4 / M4 Pro): Die Standardempfehlung

Das Mac mini bleibt weiterhin die einfachste Empfehlung für die größte Nutzergruppe; die Preisänderungen im Jahr 2026 haben diese Position sogar noch verstärkt. Nachdem Apple im Mai 2026 die Speichervariante mit 256 GB Festplattenspeicher eingestellt hatte, beginnt das Basis-M4-mini nun bei 799 US-Dollar (16 GB einheitlicher Arbeitsspeicher, 512 GB SSD), wobei zusätzlich eine Variante mit 24 GB Arbeitsspeicher erhältlich ist.

Das Basis-M4 verfügt über eine 10-Core-GPU und eine Bandbreite von 120 GB/s – ausreichend für Modelle der 8-Milliarden-Klasse, bei denen es auf Llama 3.2 8B in Q4-Qualität rund 18–22 Tok/s erreicht. Für ernsthafte lokale KI-Anwendungen benötigen Sie jedoch das M4 ProM4 Pro mit einer Bandbreite von 273 GB/s

– mehr als das Doppelte der Basis-Chip-Bandbreite. In der Konfiguration mit 48 GB (ca. 1.999 US-Dollar) fasst es problemlos ein auf Q4 quantisiertes 32-Milliarden-Parameter-Modell vollständig im Arbeitsspeicher und erreicht damit bei Qwen 2.5 32B Geschwindigkeiten im Bereich von 10–15 Tok/s.

Was das Mac mini überzeugend macht, ist nicht die Spitzenleistung – sondern das Gesamtpaket. Im Leerlauf verbraucht es etwa 15 W, unter Inferenzlast rund 30 W, und der Lüfter dreht sich kaum hörbar hoch. Sie können es problemlos als ständig aktiven Inferenz-Server im Regal stehen lassen und vergessen, dass es existiert. Die Softwareunterstützung über Ollama, LM Studiound Apples MLX-Framework ist ausgezeichnet. Falls Sie neu bei lokalen Modellen sind, empfehlen wir unseren umfassender Leitfaden zu Ollama Was das Mac mini überzeugt, ist nicht die Spitzenleistung – sondern das Gesamtpaket. Im Leerlauf verbraucht es etwa 15 W, unter Inferenzlast rund 30 W, und der Lüfter dreht sich kaum hörbar hoch. Sie können ein solches Gerät als ständig aktiven Inferenzserver im Regal stehen lassen und praktisch vergessen. Die Softwareunterstützung über Ollama, LM Studio und Apples MLX-Framework ist ausgezeichnet. Falls Sie neu im Umgang mit lokalen Modellen sind, empfehlen wir unseren

Vorteile

Effektiv lautlos; Leistungsaufnahme von 15–30 W
Bestes Software-Ökosystem der Branche (MLX, Ollama, LM Studio)
Die 273 GB/s Speicherbandbreite des M4 Pro ist bei Größe und Preis hervorragend
Wiederverkaufswert und Verarbeitungsqualität sind ausgezeichnet

Nachteile

Praktisch auf 48 GB begrenzt (die 64-GB-Variante wurde während der Knappheit im Jahr 2026 gestrichen) – kann Modelle mit über 70 Mrd. Parametern nicht bewältigen, die auf Systemen mit 128 GB laufen
Der gemeinsame Arbeitsspeicher ist fest verlötet; kaufen Sie daher direkt die benötigte Kapazität
Kein NVIDIA-CUDA-Pfad verfügbar, was für bestimmte Trainings- und Feinabstimmungstools relevant ist

NVIDIA DGX Spark: 128 GB und ein CUDA-Stack – allerdings zu einem Preis

Der DGX Spark (ursprünglich als „Project DIGITS“ auf der CES 2025 vorgestellt, im März 2025 auf der GTC in DGX Spark umbenannt und ab dem 15. Oktober 2025 ausgeliefert) ist NVIDIAs Antwort darauf, einen „persönlichen KI-Supercomputer“ auf Ihren Schreibtisch zu bringen. Er kombiniert einen GB10 Grace Blackwell-Superchip – bestehend aus einer 20-Kern-Arm-CPU (10× Cortex-X925 + 10× Cortex-A725) sowie einer Blackwell-GPU – mit 128 GB kohärentem, gemeinsamem LPDDR5x-Speicher, einer 4-TB-Selbstverschlüsselungs-SSD und einer ConnectX-7-200-Gbps-NIC zur Verknüpfung zweier Einheiten. NVIDIA gibt eine maximale FP4-KI-Leistung von bis zu 1 Petaflop an; laut NVIDIA lässt sich damit Inferenz für Modelle mit bis zu etwa 200 Mrd. Parametern durchführen oder Fine-Tuning für Modelle mit bis zu etwa 70 Mrd. Parametern vornehmen. Die Stromversorgung erfolgt über ein 240-W-Netzteil.

Hier kommt der ehrliche Teil: Der Spark ist ein wahrer Prompt-Verarbeitungsmonster: Bei gpt-oss-120B erreicht er im standardisierten Test rund 1.723 Tok/s beim Prefill , vergleichbar mit einem Dreifach-RTX-3090-System. Die Token- Generierung liegt jedoch nur bei ~38,6 Tok/s im selben Vergleich, da die Speicherbandbreite des GB10 lediglich 273 GB/s beträgt – genauso viel wie bei einem Mac mini M4 Pro – und somit während der speicherbandbreitenbegrenzten Decode-Phase die entscheidende Engstelle darstellt. Hochgradig optimierte Inferenz-Stacks (vLLM, SGLang, NVIDIAs eigener TensorRT-LLM) haben Berichten zufolge die Generierungsrate für gpt-oss-120B auf einer einzelnen Einheit mit der richtigen Konfiguration auf 50–60 Tok/s gesteigert; doch diese Bandbreitenobergrenze, die den Spark deutlich hinter Mehr-GPU-Systemen zurückhält, beruht auf physikalischen Gegebenheiten – nicht auf Software.

Dann gibt es noch den Preis: Der Spark wurde ursprünglich für 3.999 US-Dollar eingeführt und stieg im Februar 2026 infolge von Speicherknappheit auf $4,699 an – ein Anstieg um 18 %, den NVIDIA auf Engpässe bei DRAM und NAND zurückführte. Das entspricht etwa 37 US-Dollar pro GB Speicher – und rein für die Generierungsleistung kostet ein Trio gebrauchter RTX-3090-Karten angeblich weniger und liefert mehrere Male höhere Geschwindigkeit. Der Spark rechtfertigt seinen Preis, wenn Sie speziell den CUDA-/NVIDIA-Softwarestack, NVFP4 oder die Möglichkeit zur Inferenz von Modellen mit bis zu 200 Mrd. Parametern in einem 240-W-Gehäuse benötigen. Wir gehen tiefer darauf ein in unserem DGX-Spark-/Project-DIGITS-Test und dem direkten Vergleich DGX Spark vs. Mac Studio .

AMD Ryzen AI Max+ 395 (Strix Halo): Die kosteneffiziente Alternative

AMDs Strix Halo ist die Überraschung dieser Generation. Der Flagship-Prozessor Ryzen AI Max+ 395 verfügt über 16 Zen-5-Kerne, eine 40-Recheneinheiten umfassende RDNA-3.5-GPU (die Radeon 8060S) und eine 50-TOPS-XDNA-2-NPU. In Kombination mit bis zu 128 GB LPDDR5X-Speicher, von denen bis zu 96 GB der GPU zugewiesen werden können, nutzt er denselben Trick mit gemeinsamem Speicher wie der Spark – es lässt sich also ein 120-Mrd.-Parameter-Modell ausführen, das keinerlei Consumer-GPU allein fassen könnte – und das zu einem Bruchteil der Kosten.

Der Kompromiss liegt in Bandbreite und Prompt-Verarbeitung: Die Speicherbandbreite des Strix Halo liegt bei maximal etwa 256 GB/s; bei gpt-oss-120B erreicht er nur ~340 Tok/s beim Prefill gegenüber den 1.723 Tok/s des Spark. Doch hier kommt der entscheidende Punkt: Die Token-Generierung liegt bei ~34 Tok/s, also nahezu auf Augenhöhe mit den 38 Tok/s des Spark. Bei Chat-Workloads, bei denen mehr generiert als eingelesen wird, ist der Unterschied gering. Für Llama 3.3 70B in Q4 ist mit etwa 12 Tok/s bei einer Leistungsaufnahme von 80–120 W zu rechnen.

Was ihn attraktiv macht, sind Preis und Wahlmöglichkeiten. Der Einstiegspreis ist im Zuge der RAM-Knappheit 2026 gestiegen: 64-GB-Versionen des GMKtec EVO-X2 kosten ab etwa 1.500 US-Dollar, während die 128-GB-Version des EVO-X2 mittlerweile knapp 2.200 US-Dollar erreicht. Frameworks reparierbare Desktop-Variante beginnt bei rund 1.639 US-Dollar (Barebone, Ryzen AI Max+ 395, 64 GB), ohne Speicher und Betriebssystem; Corsairs AI Workstation 300 startete nahe 2.000 US-Dollar, lag aber während der Knappheit deutlich darüber. Die Software ist der Haken – ROCm und llama.cpp funktionieren gut, doch das Ökosystem ist rauer als das von Apple oder NVIDIA, und Windows-KI-Funktionen setzen stärker auf die NPU als auf die leistungsstarke GPU.

Vorteile

128-GB-Konfigurationen mit gemeinsamem Speicher verfügbar – der kostengünstigste Weg zu Modellen mit über 70 Mrd. Parametern
Generierungsgeschwindigkeit nahezu auf Augenhöhe mit dem DGX Spark – zu einem Bruchteil des Preises
Offene x86-Plattform; unterstützt Windows oder Linux, breite App-Kompatibilität

Nachteile

Schwache Prompt-Verarbeitung – Workloads mit langem Kontext oder RAG wirken langsam
ROCm-Tools sind weniger ausgereift als CUDA oder MLX
Fest verlöteter Speicher; die RAM-Preise 2026 haben die Marktpreise nach oben getrieben

Intel-Mini-PCs: Kleine Modelle und NPU-Offload

Intels Mini-PCs besetzen eine andere Preisklasse – hier ist es wichtig, keine Fehlkäufe zu tätigen. Aktuelle Arrow-Lake-H-Chips wie der Core Ultra 9 285H kombinieren eine Arc-iGPU mit einer 13-TOPS-NPU und erreichen insgesamt etwa 99 TOPS an Plattform-KI-Leistung unter Einbeziehung von CPU und GPU; Intels IPEX-LLM-Stack ermöglicht den Einsatz von Ollama und llama.cpp auf iGPU und NPU. Der größere Schritt 2026 ist Panther Lake (Core Ultra Series 3), der auf der CES 2026 vorgestellt wurde und eine 50-TOPS-NPU mit einer deutlich leistungsstärkeren GPU kombiniert, um insgesamt bis zu ~180 TOPS Plattform-Leistung zu erreichen – bleibt jedoch eine Laptop-/Mobile-Plattform und kein Desktop-System für große Modelle.

Keines dieser Systeme verfügt jedoch über gemeinsamen Speicher für große Modelle. Mit Standard-DDR5 (typischerweise ~120 GB/s Dual-Channel) und keiner Zuweisung von bis zu 96 GB an die GPU ist ein Intel-Mini-PC das richtige Werkzeug für Modelle mit 3–8 Mrd. Parametern, lokale Assistenten, Transkription und NPU-beschleunigte Hintergrundaufgaben – nicht jedoch für die Ausführung eines 70-Mrd.-Parameter-Modells. Wenn Ihre Anforderung „ein quantisiertes 8-Mrd.-Parameter-Modell plus einige Windows-KI-Funktionen“ lautet, ist ein Intel-System preisgünstig und stromsparend. Wenn es jedoch heißt „das größtmögliche Modell, das ich unterbringen kann“, sollten Sie sich die oben genannten Systeme mit gemeinsamem Speicher anschauen. Der Kompromiss zwischen NPU und GPU ist ein eigenes Thema, das wir in unserer Übersicht NPU vs. GPU für KI ausführlich behandeln.

Die Vergleichstabelle

Die unten stehenden Generierungswerte beziehen sich auf gpt-oss-120B (Token-Generierung / Prompt-Verarbeitung) aus standardisierten, llama.cpp-ähnlichen Tests, bei denen beide Modelle passen; für kleinere Modelle sind entsprechende Hinweise separat angegeben. Die Preise gelten für Mitte 2026 (in US-Dollar) und schwanken mit der andauernden Speicherknappheit.

System	Einheitlicher Arbeitsspeicher	Bandbreite	Realistische Obergrenze für Modellgröße	Generierung / Prefill (120B)	Stromverbrauch	Preis (2026)
Mac mini M4 (Einstiegsmodell)	16–32 GB	120 GB/s	~8–14 Mrd. Parameter (Q4)	n.v. (8 Mrd.: ~20 Tok/s)	~30 W	$799+
Mac mini M4 Pro	bis zu 48 GB*	273 GB/s	~32 Mrd. (Q4)	n/v (32 Mrd.: 10–15 Tok/s)	~30 W	~$1,999
AMD Strix Halo (Ryzen AI Max+ 395)	bis zu 128 GB	~256 GB/s	~120 Mrd. (Q4, MoE)	34 / 340 Tok/s	80–120 W	1.500–3.000+ USD
NVIDIA DGX Spark	128 GB	273 GB/s	~200 Mrd. (Inferenz)	39 / 1.723 Tok/s	max. ~240 W	3.999–4.699 USD
Intel Arrow Lake-H-Mini-PC	DDR5 (kein großer GPU-Speicherpool)	~120 GB/s	~8 Mrd. (Q4)	n/v	~65 W	600–1.200 USD

*Die Spezifikationstabelle des M4 Pro listet 64 GB auf, doch diese Konfiguration wurde während der DRAM-Knappheit 2026 vom Markt genommen; 48 GB ist Mitte 2026 die praktische Obergrenze.

Zum Vergleich: Ein Mac Studio M3 Ultra erreicht eine Bandbreite von etwa 819 GB/s (und decodiert dasselbe 120-Mrd.-Modell mit rund 70 Tok/s), während ein Dreier-3090-System bei ~124 Tok/s Decodierung liegt – beide liegen weit außerhalb der Mini-PC-Klasse und verdeutlichen, was man zugunsten des kompakten Formfaktors an Leistung opfert. Falls Sie einen größeren Apple-Rechner ins Auge fassen, behandelt unser Mac Studio M4 Max vs. M4 Ultra Leitfaden diesen Leistungssprung.

Empfehlungen nach Anwendungsfall

Die meisten Nutzer / stummer, immer aktiver Assistent: Mac mini M4 Pro mit 48 GB. Beste Balance aus Leistungsfähigkeit, nahezu geräuschloser Betriebsweise, einem Stromverbrauch von ~30 W und einem ausgereiften Software-Stack. Für den Einsatz ausschließlich von 8-Mrd.-Modellen reicht auch die Basiskonfiguration mit 24 GB M4.

Maximale Modellgröße im Budgetbereich: ein AMD Strix Halo-System (GMKtec EVO-X2, Framework Desktop oder Corsair AI Workstation 300). Mit 128 GB können Sie Modelle mit 70–120 Mrd. Parametern laden, die das Mac mini nicht bewältigen kann, und zwar mit Generierungsgeschwindigkeiten, die nahe an denen des deutlich teureren Spark liegen – und selbst bei knappheitsbedingt erhöhten Preisen bleibt es deutlich unter dem Preis des Spark.

CUDA-Entwicklung / NVIDIA-Workflow / intensive Prompt-Verarbeitung: DGX Spark. Hier zahlen Sie einen Aufpreis für den NVIDIA-Stack, NVFP4, ConnectX-Clustering und die branchenführende Prefill-Leistung – gerechtfertigt nur, wenn genau diese Aspekte für Sie entscheidend sind.

Kleine Modelle für Geräte-Intelligenz und NPU-Aufgaben: ein Intel Arrow Lake- oder Panther Lake-Mini-PC. Günstig, energieeffizient und ideal dimensioniert für Aufgaben im Bereich von 8-Mrd.-Modellen sowie Windows-KI-Funktionen.

Häufig gestellte Fragen (FAQ)

Welcher Mini-PC eignet sich 2026 am besten zum lokalen Betrieb von LLMs?

Für die meisten Nutzer ist es das Mac mini M4 Pro mit 48 GB – leise, stromsparend und leistungsfähig bis hin zu ~32-Mrd.-Modellen. Falls Sie Modelle mit 70 Mrd. Parametern oder mehr benötigen, bietet ein AMD Strix Halo-System mit 128 GB die beste Kosten-Nutzen-Relation, während der NVIDIA DGX Spark die Premium-CUDA-Option darstellt.

Wie viel Arbeitsspeicher benötige ich, um ein Modell mit 70 Mrd. Parametern zu betreiben?

Ein auf Q4 quantisiertes 70-Mrd.-Modell benötigt allein für die Gewichte etwa 40–48 GB plus Puffer für den Kontext. Praktisch sollten Sie daher mindestens eine Maschine mit 64 GB wählen und idealerweise 128 GB, um das Modell bequem mit großem Kontextfenster zu betreiben. Damit scheidet das aktuelle 48-GB-Mac mini für die größten 70-Mrd.-Konfigurationen aus und verweist auf 128-GB-Systeme mit gemeinsamem Speicher.

Warum ist der NVIDIA DGX Spark beim Token-Generieren langsam, obwohl er über 4.000 USD kostet?

Weil die Token-Generierung durch die Speicherbandbreite begrenzt ist – und die des Spark mit 273 GB/s eher bescheiden ist, vergleichbar mit der eines Mac mini M4 Pro. Seine Stärke liegt vielmehr in der Prompt-Verarbeitung (ca. 1.723 Tok/s bei einem 120-Mrd.-Modell) und der Kapazität von 128 GB, nicht in der reinen Generierungsgeschwindigkeit, bei der Standardtests ihn bei etwa 38 Tok/s einstufen (optimierte Stacks erreichen ~50–60 Tok/s).

Ist gemeinsamer Speicher (unified memory) genauso gut wie dedizierter GPU-Speicher (VRAM)?

Es handelt sich um einen Kompromiss: Gemeinsamer Speicher bietet deutlich mehr Kapazität (bis zu 128 GB), sodass Sie Modelle betreiben können, die auf keiner einzelnen Consumer-GPU Platz finden – allerdings mit deutlich geringerer Bandbreite als VRAM. Für große Modelle, die anderweitig nicht lauffähig wären, ist er die einzige praktikable Lösung; für kleinere Modelle ist eine diskrete GPU schneller.

Kann ein Mac mini ein 70-Mrd.-Modell betreiben?

Eigentlich nicht mehr. Da die 64-GB-Variante während der DRAM-Knappheit 2026 vom Markt genommen wurde, ist die höchste verfügbare Konfiguration des Mac mini M4 Pro mit 48 GB ausgestattet – gerade ausreichend für ein stark quantisiertes 70-Mrd.-Modell unter engen Bedingungen, wobei der praktische Spielraum bei Q4 maximal bei ~32 Mrd. liegt. Für 70-Mrd.-Aufgaben empfiehlt sich stattdessen ein 128-GB-System wie ein Strix Halo-PC, ein Mac Studio oder der DGX Spark.

Sind AMD Strix Halo-Mini-PCs für KI geeignet, oder ist die Software noch zu unzureichend?

Sie sind tatsächlich leistungsfähig – mit 128 GB Speicher und Generierungsgeschwindigkeiten nahe denen des DGX Spark zu einem Bruchteil des Preises. Der Nachteil liegt in der Software: ROCm und llama.cpp funktionieren zwar, sind aber weniger ausgereift als Apples MLX oder NVIDIAs CUDA, und die Prompt-Verarbeitung ist schwach. Wer bereit ist, etwas Setup-Arbeit zu investieren, erhält hier hervorragende Wertigkeit.

Welchen Stromverbrauch und welche Geräuschentwicklung darf ich von diesen Geräten erwarten?

Das Mac mini ist das leiseste und effizienteste Gerät mit ~30 W unter Last und praktisch geräuschlosem Betrieb. Strix Halo-Systeme ziehen 80–120 W und verfügen über hörbare, aber moderat laufende Lüfter. Der DGX Spark wird mit einem 240-W-Netzteil ausgeliefert. Alle Geräte sind deutlich leiser und stromsparender als ein Multi-GPU-Desktop, der 300–450 W oder mehr verbrauchen kann.

Fazit

Die Ära der Mini-PCs für lokale KI ist Realität – doch die Marketingaussagen übertreiben sie in einem Punkt speziell: Diese Geräte überzeugen durch ihre Größe, Geräuschlosigkeit, Energieeffizienz und großen gemeinsamen Speicher – nicht durch reine Geschwindigkeit. Keines dieser Systeme schlägt einen Multi-GPU-Desktop bei Tokens pro Sekunde, und Sie sollten es nicht kaufen, wenn Sie genau das erwarten.

Wählen Sie nach der tatsächlichen Modellgröße, die Sie einsetzen. Für 8–32-Mrd.-Modelle mit minimalem Aufwand ist das Mac mini M4 Pro die klare Wahl und die Empfehlung für die meisten Leser. Um 70–120-Mrd.-Modelle ohne Tower zu betreiben, liefert ein AMD Strix Halo-System die beste Leistung pro Dollar, während der DGX Spark für Nutzer reserviert bleibt, die gezielt auf NVIDIAs Stack und dessen starke Prompt-Verarbeitung angewiesen sind. Und falls Ihre Anforderungen bei 8-Mrd.-Modellen enden, erledigt ein Intel-Mini-PC die Aufgabe zu geringeren Kosten. Passen Sie den Speicher an das Modell an, beachten Sie die Bandbreitenangabe – und ignorieren Sie einfach die Petaflop-Zahl auf der Verpackung.

Wichtigste Erkenntnisse

Einheitlicher Arbeitsspeicher vs. VRAM: Das eine Konzept, das alles erklärt

Apple Mac mini (M4 / M4 Pro): Die Standardempfehlung

Vorteile

Nachteile

NVIDIA DGX Spark: 128 GB und ein CUDA-Stack – allerdings zu einem Preis

AMD Ryzen AI Max+ 395 (Strix Halo): Die kosteneffiziente Alternative

Vorteile

Nachteile

Intel-Mini-PCs: Kleine Modelle und NPU-Offload

Die Vergleichstabelle

Empfehlungen nach Anwendungsfall

Häufig gestellte Fragen (FAQ)

Welcher Mini-PC eignet sich 2026 am besten zum lokalen Betrieb von LLMs?

Wie viel Arbeitsspeicher benötige ich, um ein Modell mit 70 Mrd. Parametern zu betreiben?

Warum ist der NVIDIA DGX Spark beim Token-Generieren langsam, obwohl er über 4.000 USD kostet?

Ist gemeinsamer Speicher (unified memory) genauso gut wie dedizierter GPU-Speicher (VRAM)?

Kann ein Mac mini ein 70-Mrd.-Modell betreiben?

Sind AMD Strix Halo-Mini-PCs für KI geeignet, oder ist die Software noch zu unzureichend?

Welchen Stromverbrauch und welche Geräuschentwicklung darf ich von diesen Geräten erwarten?

Fazit

Verwandte Artikel