Is an NPU faster than a GPU?

No, not in absolute terms. A high-end GPU like the RTX 5090 (3,352 AI TOPS) vastly out-computes any consumer NPU (45-80 TOPS). The NPU's advantage is efficiency: it does AI work at a few watts instead of hundreds, which matters for battery life and always-on features, not for peak speed.

Can I run ChatGPT-style models on my NPU?

You can run small, quantized local models on a 40+ TOPS NPU, but in mid-2026 the experience is limited. A 7B model runs around 9-12 tokens per second on a Snapdragon NPU, and many runtimes can't target the NPU at all yet. For a smooth large-model experience, a GPU with ample VRAM is still the better tool.

Why do laptops need a 40 TOPS NPU for Copilot+?

Microsoft set 40+ TOPS as the floor so on-device AI features (live captions, Studio Effects, Recall, image generation) run on the NPU rather than the CPU or GPU. That keeps these always-on features from hammering battery life, and it guarantees a baseline capability developers can target.

What is the difference between TOPS and TFLOPS?

TOPS measures trillions of integer operations per second (usually INT8) and is used for NPUs. TFLOPS measures trillions of floating-point operations per second and is used for GPUs and training. Because they use different precisions and units, you cannot directly compare a TOPS number to a TFLOPS number.

Does Apple's M5 have an NPU?

Yes. The M5 has a 16-core Neural Engine, but Apple no longer publishes a TOPS figure for it. Apple instead added Neural Accelerators to every GPU core and claims up to 3.5x faster AI than the M4, signaling a shift toward GPU-integrated AI rather than a standalone NPU spec.

Is a TPU better than a GPU for AI?

For Google's own large-scale training and inference, TPUs are highly competitive and cost-effective at pod scale. But TPUs are cloud-only ASICs you can't buy for a PC, whereas GPUs are general-purpose and run anywhere. For most people the practical choice is NPU versus GPU, not TPU.

Will NPUs replace GPUs for AI?

Not for heavy workloads. NPUs are taking over efficient, on-device inference, and that footprint will keep growing. But training, large local models and high-throughput generation still need GPUs (or TPUs). The realistic 2026 picture is convergence, with NPUs, GPUs and unified-memory designs each owning a slice.

NPU vs. GPU für KI: Was ist der Unterschied? (2026)

Jeder Laptop, jedes Smartphone und jede Grafikkarte, die 2026 verkauft wird, wirbt mit einer sogenannten „KI-Zahl“. Manche nennen TOPS, andere TFLOPS – doch die Marketingmaterialien erklären selten, dass es sich dabei um unterschiedliche Einheiten handelt, die verschiedene Chips bei unterschiedlichen Aufgaben messen. Die NPU in Ihrem neuen Laptop und die GPU in Ihrem Desktop-PC sind beide technisch gesehen „KI-Beschleuniger“, wurden jedoch entwickelt, um entgegengesetzte Enden desselben Problems zu meistern.

Dieser Artikel klärt, was eine NPU tatsächlich ist, wie sie sich architektonisch von einer GPU unterscheidet und welche Komponente für Ihre jeweilige Anwendung entscheidend ist. Wir stützen uns auf reale, verifizierte Leistungsdaten der aktuell erhältlichen Siliziumchips: Apples Neural Engine, Qualcomms Hexagon, die Intel- und AMD-NPUs in Copilot+-PCs sowie die NVIDIA-RTX- und Blackwell-Serverkomponenten. Keine hypothetischen Chips, keine Übertreibungen.

Wichtigste Erkenntnisse

Unterschiedliche Aufgaben – nicht besser oder schlechter. NPUs sind für energieeffiziente, ständig aktive Inferenz auf dem Gerät konzipiert; GPUs hingegen für maximale parallele Durchsatzleistung und das Training von Modellen.
TOPS und TFLOPS sind nicht dieselbe Einheit. NPUs werden in INT8-TOPS angegeben; GPUs werden üblicherweise in Gleitkomma-TFLOPS spezifiziert. Die beiden Werte lassen sich nicht direkt miteinander vergleichen.
Die Größenordnung unterscheidet sich enorm. Eine NPU eines Laptops aus dem Jahr 2026 erreicht etwa 45–80 TOPS. Eine NVIDIA RTX 5090 ist mit 3.352 KI-TOPS spezifiziert, während eine Data-Center-B200 etwa 4.500 TFLOPS in FP8 erreicht.
NPUs überzeugen durch Effizienz – nicht Geschwindigkeit. Sie führen Hintergrund-KI-Aufgaben (z. B. Kameraeffekte, Spracherkennung oder Copilot-Funktionen) mit nur einem Bruchteil der Leistungsaufnahme einer GPU aus – daher benötigt jeder Copilot+-PC mindestens 40+ TOPS an NPU-Leistung.
Für lokale große Sprachmodelle (LLMs) entscheidet nach wie vor die GPU (und deren Speicherbandbreite). Die Softwareunterstützung für NPUs ist noch ausbaufähig: Ein 7-Milliarden-Parameter-Modell läuft Mitte 2026 auf einer Snapdragon-NPU mit rund 9–12 Token/Sekunde, während eine dedizierte GPU deutlich schneller ist.
Die Grenzen verwischen zunehmend. Apples M5 integriert neuronale Beschleuniger in jeden GPU-Kern, und AMDs Strix Halo kombiniert eine 50-TOPS-NPU mit 128 GB einheitlichem Arbeitsspeicher, um Modelle mit bis zu 120 Milliarden Parametern lokal auszuführen.

Was eine NPU tatsächlich ist

Eine NPU (Neural Processing Unit) ist ein Chip-Block, der für eine einzige, sehr spezifische Aufgabe extrem effizient ausgelegt ist: die Multiplikation und Akkumulation (MAC), die mathematische Grundlage neuronaler Netze. Sie ist kein universell einsetzbarer Prozessor – sie kann weder Ihr Betriebssystem noch ein Computerspiel ausführen. Was sie jedoch leisten kann, ist die Verarbeitung riesiger Mengen niedrigpräziser Ganzzahlmathematik (typischerweise INT8 oder INT4) mittels dedizierter Hardware bei äußerst geringem Stromverbrauch.

Genau diese Effizienz ist ihr alleiniger Zweck. Eine NPU ermöglicht es Ihrem Smartphone, beispielsweise den Hintergrund eines Videos zu verwischen, eine Sprachnotiz zu transkribieren oder ein kleines Sprachmodell auszuführen – ohne die Batterie zu entladen oder den Lüfter zu aktivieren. Unter Windows hat Microsoft dies als explizite Hardwareklasse definiert: Ein Copilot+-PC muss über eine NPU mit mehr als 40 Billionen Operationen pro Sekunde (40+ TOPS) verfügen, damit Funktionen wie Live-Captions oder Bildgenerierung direkt auf der NPU statt auf CPU oder GPU laufen. Windows 11 verteilt KI-Arbeitslasten nun dynamisch auf CPU, GPU und NPU und zeigt sogar die NPU-Auslastung im Task-Manager an.

Das Schlüsselwort lautet InferenzInferenz. NPUs führen bereits trainierte Modelle aus. Sie werden praktisch nie zum Training neuer Modelle aus dem Stand verwendet – eine grundsätzlich andere und weitaus anspruchsvollere Aufgabe.

Wie sich eine GPU architektonisch unterscheidet

Eine GPU wurde ursprünglich zur Darstellung von Dreiecken entwickelt; dieses Erbe prägte sie zu einer massiv parallelen Gleitkomma-Rechenmaschine mit Tausenden von Kernen. Moderne GPUs erhielten zudem spezielle Tensor-Cores (NVIDIAs Begriff) für Matrixberechnungen – genau das macht sie zum Standardwerkzeug für KI-Anwendungen. Eine RTX 5090 verfügt über 21.760 CUDA-Kerne sowie zusätzlich fünfte Generation Tensor-Cores.

Drei architektonische Unterschiede sind entscheidend:

Präzision. GPUs verarbeiten problemlos hochpräzise Gleitkommazahlen (FP16, FP32), wie sie für das Training erforderlich sind; neuere Modelle unterstützen auch niedrigere Präzisionsstufen. Blackwell-GPUs sind die ersten Consumer-Karten mit FP4-Unterstützung. NPUs setzen nahezu ausschließlich auf niedrigpräzise Ganzzahlmathematik – ideal für Inferenz, aber ungeeignet für das Training.
Speicher. Dies ist der oft unterschätzte Unterschied: Eine GPU besitzt ihren eigenen schnellen, dedizierten VRAM (die RTX 5090 bringt 32 GB GDDR7 mit einer Bandbreite von rund 1,79 TB/s mit). Eine NPU teilt sich den Systemhauptspeicher mit allen anderen Komponenten – dadurch ist sowohl die maximale Modellgröße als auch die Datenübertragungsrate begrenzt.
Stromverbrauch. Eine RTX 5090 verbraucht bis zu 575 W; eine Laptop-NPU führt dieselbe Klasse von Inferenzaufgaben mit nur wenigen Watt aus. Diese eine Tatsache erklärt, warum beide Chips existieren.

Wenn Sie große Modelle lokal ausführen möchten, spielen Speicher und Bandbreite häufig eine größere Rolle als die reine Rechenleistung – genau deshalb achten Käufer von GPUs so stark auf die VRAM-Ausstattung. Unser Leitfaden zu den beste GPUs für lokale LLMs besten GPUs für lokale große Sprachmodelle

TOPS vs. TFLOPS: Warum die Zahlen nicht vergleichbar sind

geht detailliert auf diesen Kompromiss ein. Hier liegt der Punkt, an dem die meisten technischen Datenblätter irreführend sind. TOPS zählt Billionen Operationen pro Sekunde; bei NPUs bedeutet dies nahezu immer INT8-Ganzzahloperationen. TFLOPS zählt Billionen von Gleitkomma- Operationen pro Sekunde – die Einheit, die für GPUs und das Training verwendet wird. Beide sind nicht austauschbar.

INT8 verdoppelt die Durchsatzleistung gegenüber FP16 auf derselben Hardware grob um den Faktor zwei; ein Hersteller kann daher einfach durch Angabe des niedrigerpräzisen Formats eine beeindruckendere Überschriftenzahl veröffentlichen. Daher werden TOPS-Werte in der Regel als INT8 angegeben: Sie wirken besser. Beide Werte sind zudem theoretische Spitzenwerte unter idealen Bedingungen – keine nachhaltige, reale Durchsatzleistung.

Es gibt eine zweite Fallgrube: Plattform-TOPS versus NPU-spezifische TOPS. Intels Lunar Lake wird beispielsweise mit 120 sogenannten „Plattform“-TOPS beworben, doch darin enthalten sind 67 TOPS von der GPU, 48 TOPS von der NPU und 5 TOPS von der CPU. Die NPU allein leistet also 48 TOPS. Vergleichen Sie beim Chipvergleich stets dieselbe Komponente.

Wo jeweils welche Komponente überzeugt

Die NPU ist das richtige Werkzeug, wenn …

Die Arbeitslast ständig aktiv oder im Hintergrund läuft (z. B. Kameraeffekte, Geräuschunterdrückung, Live-Untertitel, Windows Studio Effects).
Akku-Laufzeit und thermische Effizienz im Vordergrund stehen – etwa bei Smartphones oder schlanken Laptops.
Sie kleine, für das Gerät optimierte quantisierte Modelle ausführen.
Sie KI-Funktionen nutzen möchten, ohne dass sich jemals ein Lüfter einschaltet.

Die GPU ist das richtige Werkzeug, wenn …

Sie ein Modell trainieren oder feinjustieren.
Sie große lokale LLMs (13 Mrd., 30 Mrd., 70 Mrd. + Parameter) mit brauchbarer Geschwindigkeit ausführen möchten.
Sie rohe Rechenleistung für Bild-, Video- oder 3D-Generierung benötigen.
Sie Modelle gleichzeitig für viele Nutzer in einem Rechenzentrum bereitstellen.

Ein klares mentales Modell: Die NPU übernimmt die KI-Funktionen, an die Sie nicht denken müssen; die GPU hingegen führt die KI-Aufgaben aus, für die Sie sich gezielt hinsetzen. Die meisten Laptops aus dem Jahr 2026 verfügen über beide Komponenten, und Windows entscheidet pro Aufgabe, welche davon zum Einsatz kommt.

Die Chips des Jahres 2026 im Überblick

Hier zeigt sich die reale Silizium-Leistung. Alle nachfolgenden Werte wurden Mitte 2026 anhand der Angaben der Hersteller und primärer Quellen verifiziert. Achten Sie bitte genau auf die Einheiten: Die erste Gruppe gibt die NPU-INT8-TOPS an, die zweite die KI-Rechenleistung der GPU.

Chip	Klasse	KI-Beschleuniger-Bewertung	Wo sie verbaut ist
Apple A18 / A18 Pro Neural Engine	Smartphone-NPU	35 TOPS (16-Kern)	iPhone 16-Serie
Apple M4 Neural Engine	Laptop-NPU	38 TOPS	MacBook Air / Pro
Qualcomm Snapdragon X Elite (Hexagon)	Laptop-NPU	45 TOPS	Copilot+-PCs (1. Welle)
Intel Core Ultra 200V (Lunar Lake)	Laptop-NPU	48 TOPS	Copilot+-PCs
AMD Ryzen AI 300 (XDNA 2)	Laptop-NPU	50 TOPS	Copilot+-PCs
Qualcomm Snapdragon X2 Elite (Hexagon)	Laptop-NPU	80 TOPS (bis zu 85 TOPS bei Top-Modellen)	Copilot+-PCs (2026-Welle)
NVIDIA RTX 5080	Consumer-GPU	1.801 KI-TOPS	Desktop / Workstation
NVIDIA RTX 5090	Consumer-GPU	3.352 KI-TOPS	Desktop / Workstation
NVIDIA H100	Rechenzentrums-GPU	1.979 TFLOPS (FP8 dicht)	Cloud / Server
NVIDIA B200 (Blackwell)	Rechenzentrums-GPU	~4.500 TFLOPS FP8 dicht (9.000 TFLOPS FP4)	Cloud / Server

Der Sprung von den NPU-Zeilen zu den GPU-Zeilen ist kein Tippfehler. Eine Flagship-Laptop-NPU mit 80 TOPS und eine RTX 5090 mit 3.352 KI-TOPS liegen um rund zwei Größenordnungen auseinander – noch bevor man den 32 GB dedizierten Hochbandbreitenspeicher der GPU berücksichtigt. Diese Lücke ist die ganze Geschichte: NPUs sollten nie absolute Leistung schlagen, sondern Leistung pro Watt.

Apples Ansatz verändert sich

Apple verdient eine gesonderte Erwähnung, denn es hat aufgehört, am TOPS-Rennen teilzunehmen. Die M4 Neural Engine wurde mit 38 TOPS bewertet; für die M5 (die Ende 2025 im 14-Zoll-MacBook Pro erschien, gefolgt von M5 Pro und M5 Max im März 2026) veröffentlichte Apple jedoch überhaupt keine TOPS-Angabe für die Neural Engine mehr. Stattdessen wurde die GPU neu gestaltet, indem ein Neural Accelerator in jeden der zehn GPU-Kerne integriert wurde; Apple verspricht bis zu 3,5-mal höhere KI-Leistung im Vergleich zur M4. Dies ist eine bewusste Wette darauf, dass KI-Leistung innerhalb der GPU wichtiger ist als eine isolierte NPU-Leistungsangabe – und verwischt damit die klare Trennung zwischen NPU und GPU. Wenn Sie Mac und Windows hinsichtlich ihrer KI-Fähigkeiten vergleichen, liefert der Vergleich Snapdragon X Elite vs. Apple M4 konkrete Einblicke, wie beide Ökosysteme sich im praktischen Einsatz tatsächlich anfühlen.

Was dies für den lokalen KI-Einsatz bedeutet

Hier kommt der ehrliche Teil, den die technischen Datenblätter verschweigen: Mitte 2026 ist die NPU nach wie vor die schwächste Stelle beim Ausführen lokaler LLMs – nicht wegen langsamer Hardware, sondern wegen einer noch unreifen Software-Stack. Unabhängige Tests eines Snapdragon X Elite mit einem quantisierten 7B-Modell über Qualcomms QNN-Pfad ergeben etwa 9–12 Tokens pro Sekunde. Ein flüssiges, werkzeugähnliches Interaktionsgefühl beginnt erst bei rund 30 Tokens pro Sekunde. Schlimmer noch: Gängige Laufzeitumgebungen wie Ollama bieten bislang noch keinen NPU-Berechnungs-Backend – so bleibt diese leistungsstarke NPU auf vielen Geräten untätig, während die CPU die Arbeit übernimmt.

Falls Ihr Ziel heute darin besteht, ein größeres Modell tatsächlich lokal auszuführen, bleibt eine diskrete GPU mit ausreichend VRAM die praktikabelste Lösung; AMDs Software-Stack hat sich mittlerweile so weit entwickelt, dass er eine echte Alternative darstellt, die es wert ist, in unserem ROCm vs. CUDA im Überblickberücksichtigt zu werden. Ein interessanter Mittelweg sind Unified-Memory-Architekturen: AMDs Ryzen AI Max („Strix Halo“) kombiniert eine 50-TOPS-XDNA-2-NPU mit bis zu 128 GB Unified Memory und kann bis zu 96 GB davon als VRAM zuweisen – genug, um lokal Modelle mit bis zu 120 Milliarden Parametern zu laden. Das ist deutlich mehr Modellgröße, als jede GPU mit 32 GB VRAM fassen könnte, und prägt damit neu den Mini-PC-Markt für lokale KI.

Bei Smartphones sieht die Rechnung anders aus, und hier liegt die klare Stärke der NPU: Es gibt keine GPU-Alternative, die nur Milliwatt verbraucht, und On-Device-Funktionen sind speziell auf die NPU abgestimmt. Wenn mobile KI Ihre Priorität ist, lesen Sie unseren Ratgeber zu den besten Smartphones für On-Device-KI.

Ein kurzer Hinweis zu CPUs und TPUs

Zwei weitere Akronyme vervollständigen das Bild: Die CPU kann zwar auch KI-Berechnungen durchführen, ist aber die langsamste Option dafür; bei Lunar Lake trägt die CPU lediglich 5 der gesamten Plattform-TOPS bei. Sie übernimmt hauptsächlich die Koordination sowie Aufgaben, die NPUs und GPUs nicht bewältigen können.

TPUs (Tensor Processing Units) sind Googles maßgeschneiderte ASICs und konzeptionell eher einer riesigen Data-Center-NPU als einer GPU verwandt. Sie befinden sich in der Cloud – nicht in Ihren Endgeräten. Googles siebte Generation der TPU namens „Ironwood“ liefert pro Chip 4.614 FP8-TFLOPS mit 192 GB HBM3e-Speicher; ein vollständiger TPU-Pod skaliert auf Tausende von Chips für das Training und den Betrieb modernster KI-Modelle. Einen solchen Chip werden Sie niemals auf Ihrem Schreibtisch haben – doch viele KI-Dienste, die Sie nutzen, werden genau darauf betrieben.

Häufig gestellte Fragen (FAQ)

Ist eine NPU schneller als eine GPU?

Nein, zumindest nicht absolut gesehen. Eine High-End-GPU wie die RTX 5090 (3.352 AI-TOPS) übertrifft jede Consumer-NPU (45–80 TOPS) bei Weitem in der Rechenleistung. Der Vorteil der NPU liegt in ihrer Effizienz: Sie führt KI-Aufgaben mit nur wenigen Watt statt mit Hunderten Watt aus – was sich auf die Akkulaufzeit und immer aktiven Funktionen auswirkt, nicht jedoch auf die Spitzenleistung.

Kann ich ChatGPT-ähnliche Modelle auf meiner NPU ausführen?

Auf einer NPU mit mindestens 40 TOPS können Sie kleine, quantisierte lokale Modelle ausführen, doch Mitte 2026 bleibt die Erfahrung eingeschränkt. Ein 7B-Modell erreicht auf einer Snapdragon-NPU etwa 9–12 Token pro Sekunde, und viele Laufzeitumgebungen unterstützen die NPU bislang überhaupt noch nicht. Für ein flüssiges Erlebnis mit großen Modellen ist nach wie vor eine GPU mit ausreichend VRAM das bessere Werkzeug.

Warum benötigen Laptops für Copilot+ eine 40-TOPS-NPU?

Microsoft hat 40+ TOPS als Mindestanforderung festgelegt, damit On-Device-KI-Funktionen (Live-Captions, Studio Effects, Recall, Bildgenerierung) auf der NPU statt auf CPU oder GPU laufen. Dadurch wird verhindert, dass diese ständig aktiven Funktionen die Akkulaufzeit stark belasten – und es wird eine verbindliche Mindestleistung garantiert, auf die Entwickler ihre Anwendungen ausrichten können.

Was ist der Unterschied zwischen TOPS und TFLOPS?

TOPS misst Billionen ganzzahliger Operationen pro Sekunde (meist INT8) und wird für NPUs verwendet. TFLOPS misst Billionen Gleitkommaoperationen pro Sekunde und wird für GPUs sowie Trainingsaufgaben genutzt. Da unterschiedliche Genauigkeiten und Maßeinheiten zugrunde liegen, lässt sich eine TOPS-Zahl nicht direkt mit einer TFLOPS-Zahl vergleichen.

Hat Apples M5 eine NPU?

Ja. Das M5 verfügt über eine 16-Kern-Neural-Engine, doch Apple veröffentlicht seitdem keine TOPS-Angabe mehr dafür. Stattdessen hat Apple Neural Accelerators in jeden GPU-Kern integriert und verspricht bis zu dreifach schnellere KI-Leistung im Vergleich zum M4 – ein deutlicher Hinweis auf den Wandel hin zu einer GPU-integrierten KI statt einer eigenständigen NPU-Spezifikation.

Ist eine TPU besser als eine GPU für KI?

Für Googles eigenes großskaliges Training und Inferenz sind TPUs auf Pod-Ebene hochgradig wettbewerbsfähig und kosteneffizient. Doch TPUs sind ausschließlich cloudbasierte ASICs, die Sie nicht für Ihren PC erwerben können, während GPUs universell einsetzbar sind und überall laufen. Für die meisten Nutzer stellt sich daher praktisch die Wahl zwischen NPU und GPU – nicht zwischen TPU und GPU.

Werden NPUs GPUs für KI-Aufgaben ersetzen?

Nicht bei rechenintensiven Workloads. NPUs übernehmen zunehmend effiziente On-Device-Inferenz – und dieser Einsatzbereich wird weiter wachsen. Doch Training, große lokale Modelle sowie Hochdurchsatz-Generierung erfordern nach wie vor GPUs (oder TPUs). Das realistische Bild für 2026 ist vielmehr eine Konvergenz: NPUs, GPUs und Architekturen mit vereinheitlichtem Speicher besetzen jeweils einen eigenen Anwendungsbereich.

Fazit

Die Gegenüberstellung ‚NPU versus GPU‘ ist irreführend, wenn man sie als Wettkampf betrachtet. Beide Technologien beantworten zwei grundsätzlich verschiedene Fragen. Wenn Sie effiziente, ständig aktive KI wünschen, die Ihre Akkulaufzeit nicht beeinträchtigt, dann tut die NPU ihre Arbeit unsichtbar in Ihrem Smartphone und Laptop – und die NPU-Generation von 2026 (80 TOPS auf dem Snapdragon X2, 48–50 TOPS bei Intel und AMD) ist tatsächlich leistungsfähig genug. Wenn Sie hingegen Modelle trainieren, große lokale LLMs ausführen oder Medien mit hoher Geschwindigkeit generieren möchten, bleibt die GPU nach wie vor die einzige ernstzunehmende Option – und nichts im NPU-Bereich kommt einer RTX 5090 oder einer B200 an reinem Durchsatz heran.

Die spannendste Entwicklung ist, dass die Grenzen zunehmend verschwimmen: Apple integriert neuronale Beschleunigung direkt in die GPU, AMD stattet seine NPUs mit GPU-artigem Speicher aus, und die Software holt langsam auf. Entscheiden Sie sich daher zunächst nach Ihrer konkreten Aufgabe: NPU für Effizienz und allgegenwärtige KI, GPU für Leistung und Größe lokaler Modelle. Lassen Sie sich nicht von einer einzelnen TOPS-Zahl auf einem Aufkleber bei Ihrer Kaufentscheidung leiten.