Monday, 22 June 2026 | Updating Daily AI insight, written for builders

NVIDIA Vera Rubin erklärt: Die nächste Generation der KI-Plattform, die die Inferenzkosten um das Zehnfache senkt (2026)

Auf der Computex 2026 bestätigte NVIDIA, dass Vera Rubin — der Nachfolger der Blackwell-Architektur, die derzeit den KI-Boom antreibt — nun in voller Produktion steht. Es handelt sich um die folgenreichste Hardwareankündigung für KI in diesem Jahr, und die zentrale Kennzahl ist beeindruckend: NVIDIA behauptet, dass Rubin die Kosten für KI-Inferenz um bis zu das Zehnfache senkt. Das betrifft nicht nur Hyperscaler, die Rechenzentren betreiben – es beeinflusst auch den Preis jedes KI-Tools, das Sie nutzen. Im Folgenden finden Sie eine klare, professionelle Erläuterung dessen, was Vera Rubin tatsächlich ist.

Wichtigste Erkenntnisse

  • Vera Rubin ist NVIDIAs nächste Generation der KI-Plattform und der Nachfolger von Blackwell – aktuell in voller Produktion (angekündigt auf der Computex 2026).
  • Die zentrale Aussage: NVIDIAs Angaben zufolge bis zu 10-mal geringere Inferenz-Token-Kosten und 4-mal weniger GPUs zum Training von Mixture-of-Experts-Modellen im Vergleich zu Blackwell.
  • Es handelt sich um eine Sechs-Chip-Plattform, nicht nur um eine GPU – die Flagship-Plattform Vera Rubin NVL72 umfasst 72 Rubin-GPUs und 36 Vera-CPU-Kerne.
  • Rubin CPX ist eine separate neue GPU, speziell entwickelt für Inferenz mit millionentokenlangem Kontext (Programmierung, Video) mit jeweils 128 GB GDDR7.
  • Verfügbarkeit: Cloud-Instanzen ab zweitem Halbjahr 2026 (AWS, Google Cloud, Azure, OCI und mehr); Rubin CPX ab Ende 2026.

Was ist NVIDIA Vera Rubin?

Vera Rubin ist NVIDIAs nächste Generation der KI-Rechenplattform – die Architektur, die auf Blackwell (der GB200-/GB300-Generation, die derzeit das meiste Spitzen-KI-Training und die Spitzen-KI-Inferenz antreibt) folgt. Benannt nach der Astronomin, die frühzeitig Hinweise auf Dunkle Materie lieferte, ist Rubin kein einzelner Chip, sondern eine eng ko-designierte Plattform aus sechs Chips so konzipiert, dass sie als eine einzige „KI-Fabrik“ funktioniert.

Das strategische Ziel ist Effizienz. Das Training und der Betrieb der derzeit größten Modelle ist äußerst kostspielig, und die höchste Einzelkostenposition im produktiven KI-Einsatz ist Inferenz — tatsächlich das Ausführen des Modells für Nutzer. Rubin ist NVIDIAs Antwort auf diese Kostenkurve.

PlattformNVIDIA Vera Rubin (Nachfolger von Blackwell)
AngekündigtComputex 2026 — mittlerweile in voller Produktion
Flagship-SystemVera Rubin NVL72 (72 Rubin-GPUs + 36 Vera-CPUs)
Rubin-GPUTransformer-Engine der dritten Generation, 50 Petaflops NVFP4-Inferenzleistung
Vera-CPU88 benutzerdefinierte Olympus-Kerne, Armv9.2, NVLink-C2C
Inferenzkosten im Vergleich zu BlackwellBis zu 10× niedriger (Angaben von NVIDIA)
Verfügbarkeit in der CloudZweites Halbjahr 2026

Die zentralen Kennzahlen – und ihre Bedeutung

Zwei Kennzahlen von NVIDIA verdeutlichen, warum Rubin von Bedeutung ist:

  • Bis zu 10× geringere Inferenz-Token-Kosten im Vergleich zu Blackwell. Die Inferenzkosten bestimmen den Preis eines KI-API-Aufrufs. Ein Effizienzgewinn um den Faktor 10 ist eine solche sprunghafte Verbesserung, die es Anbietern ermöglicht, Preise drastisch zu senken, Rate-Limits anzuheben oder deutlich leistungsfähigere Modelle bei gleichen Kosten bereitzustellen.
  • Eine Reduktion um den Faktor 4 bei der Anzahl der zur Schulung von Mixture-of-Experts-(MoE-)Modellen benötigten GPUs. Nahezu jedes Spitzenmodell im Jahr 2026 — von GPT über Claude bis hin zu den offenen chinesischen Modellen — ist ein MoE-Modell. Eine Verringerung der GPU-Anzahl um den Faktor 4 senkt die Hürde für das Training von Modellen auf Spitzenniveau unmittelbar.

Wie immer bei Herstellerbenchmarks sollten diese Zahlen zunächst als bestmögliche Angaben von NVIDIA betrachtet werden, bis unabhängige Labore sie verifizieren. Doch selbst ein Bruchteil der behaupteten Leistungssteigerungen verändert die Wirtschaftlichkeit der KI grundlegend. Der Grund dafür, dass Ihre KI-Tools stetig günstiger und schneller werden, sind Hardwarekomponenten wie diese.

Die sechs Chips, aus denen sich die Plattform zusammensetzt

Rubins Effizienz resultiert aus der gemeinsamen Konzeption des gesamten Racks, nicht nur der GPU. Die Plattform umfasst sechs Chips:

  1. Vera-CPU — 88 benutzerdefinierte Olympus-Kerne (Armv9.2), optimiert für agentenbasiertes Denken und eng mit den GPUs über NVLink-C2C gekoppelt.
  2. Rubin-GPU — die Recheneinheit mit einer Transformer-Engine der dritten Generation, hardwarebeschleunigter adaptiver Kompression sowie 50 Petaflops NVFP4 Inferenzleistung.
  3. NVLink 6-Switch — die Verbindungsschnittstelle mit 3,6 TB/s pro GPU und und insgesamt 260 TB/s innerhalb eines einzelnen NVL72-Racks.
  4. ConnectX-9 SuperNIC — Hochgeschwindigkeits-Netzwerktechnik, integriert in das NVL72-Design.
  5. BlueField-4-DPU — ermöglicht KI-native Speicherlösungen und effiziente Wiederverwendung von Key-Value-(KV-)Caches, was die Inferenz bei langen Kontexten direkt beschleunigt.
  6. Spectrum-6-Ethernet-Switch — basierend auf 200-GSerDes mit co-packagierten Optiken für skalierbare KI-Fabriken.

Das Flagship-System, die Vera Rubin NVL72, kombiniert 72 Rubin-GPUs und 36 Vera-CPUs in einem Rack – und NVIDIA gibt an, dass es bis zu 18× schneller zu montieren und zu warten ist als Blackwell, was im Rechenzentrum-Maßstab enorm wichtig ist.

Rubin CPX: Eine GPU für millionentokenlangen Kontext

Neben der Standardplattform stellte NVIDIA eine völlig neue Kategorie vor: die Rubin CPXRubin CPX, eine GPU, die „speziell für die Verarbeitung massiver Kontexte entwickelt wurde“. Dieser Chip zielt gezielt auf das Zeitalter langer Kontexte ab – also auf Workloads wie Softwareentwicklung mit Millionen Tokens oder generatives Video, die von heutigen Modellen zunehmend gefordert werden.

Jede Rubin CPX verfügt über 128 GB GDDR7 und bis zu sowie 30 Petaflops NVFP4-Rechenleistung und integriert einzigartigerweise Hardware zur Videocodierung/-decodierung zusammen mit Long-Context-Inferenz auf einem einzigen Chip. Auf Rack-Ebene liefert die Vera Rubin NVL144 CPX angeblich 8 Exaflops KI-Rechenleistung und 100 TB schnellen Arbeitsspeichers, was laut NVIDIA 7,5× mehr KI-Leistung als ein GB300-NVL72-System, mit dreimal schnellerer Attention-Berechnung. Es wird erwartet am Ende des Jahres 2026.

Für alle, die sich fragen, warum sich Kontextfenster stetig vergrößern – etwa die 1-Mio.-Token-Fenster in Modellen wie DeepSeek und den neuesten Spitzenmodellen – ist Rubin CPX die Hardware, die Million-Token-Inferenz wirtschaftlich machbar macht.

Wann können Sie sie tatsächlich nutzen?

Rubin ist eine Rechenzentrumsplattform; Sie werden daher kein einzelnes Gerät kaufen – doch Sie spüren ihre Auswirkungen über die Dienste, die Sie nutzen:

  • Cloud-Instanzen werden in der zweiten Jahreshälfte 2026 verfügbar sein. Zu den ersten Anbietern zählen: AWS, Google Cloud, Microsoft Azure und OCI, sowie NVIDIA-Cloud-Partner wie CoreWeave, Lambda, Nebius und Nscale. Falls Sie GPUs mieten, lesen Sie unseren Überblick zu den besten Cloud-GPU-Anbietern für KI , sobald Rubin-Instanzen verfügbar sind.
  • Rubin CPX erscheint Ende 2026 für Workloads mit langem Kontext und Video.
  • Die lokale Perspektive: Auf der Computex legte NVIDIA außerdem eine Roadmap vor, die diese Architektur auch für lokale KI-Desktops und -Laptops vorsieht – ihre RTX-/DGX-Spark-Linie, beginnend mit einer Rubin-basierten Generation (mit LPDDR6-Speicher), gefolgt von zukünftigen Designs namens „Rosa“ und „Feynman“. So wandert die Technologie, die heute im Rechenzentrum startet, auf den Schreibtisch – ähnlich wie heutige persönliche KI-Computer.

Rubin vs. Blackwell

DimensionVera Rubin (nächste Generation)Blackwell (aktuelle Generation)
Flagship-SystemVera Rubin NVL72GB300 NVL72
Kosten pro Inferenz-TokenBis zu 10× niedrigerReferenzwert
GPUs zum Trainieren eines MoE-Modells4× wenigerReferenzwert
Montage / WartungBis zu 18× schnellerReferenzwert
Chip für lange KontexteRubin CPX (128 GB, 1 Mio. Token)
StatusVollständige Produktion; Cloud-H2 2026Jetzt lieferbar

Warum es auch für Sie relevant ist – selbst wenn Sie sie nie direkt nutzen

Es ist verlockend, GPUs für Rechenzentren unter der Rubrik „nicht mein Problem“ abzuhaken. Doch Rubin betrifft jeden, der KI nutzt:

  • Günstigere und leistungsfähigere KI-Tools. Ein Effizienzgewinn bei der Inferenz um den Faktor 10 ermöglicht es Anbietern, API-Preise weiter zu senken und Nutzungsgrenzen anzuheben. Der stetige Rückgang der Kosten für den Einsatz von Modellen wie Claude und GPT ist direkte Folge genau solcher Hardware-Sprünge.
  • Längere Kontextfenster – wirklich. Rubin CPX macht Million-Token-Inferenz wirtschaftlich – daher erweitern Spitzenmodelle kontinuierlich ihre Kontextfenster.
  • Der Druck auf Consumer-GPUs. Die Kehrseite: Die unstillbare Nachfrage nach KI-Beschleunigern (und dem Speicher, den sie benötigen) trägt dazu bei, dass Grafikkarten für Endverbraucher 2026 knapp und teuer sind. Falls Sie einen lokalen KI-PC zusammenstellen möchten, lesen Sie unseren beste GPUs für lokale LLMs Leitfaden.
  • Der lokale Trickle-down-Effekt. Was heute in einem NVL72-Rack ausgeliefert wird, bestimmt, was in ein paar Jahren in einer Desktop-KI-Box landet.

Häufig gestellte Fragen (FAQ)

Was ist NVIDIA Vera Rubin?

Vera Rubin ist NVIDIAs nächste KI-Plattform und der Nachfolger von Blackwell; sie wurde auf der Computex 2026 als vollständig in Produktion befindlich angekündigt. Es handelt sich um eine gemeinsam entwickelte Sechs-Chip-Plattform (Vera-CPU, Rubin-GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6), die konzipiert wurde, um die Kosten für das Training und den Betrieb von KI-Modellen drastisch zu senken.

Wie viel schneller ist Rubin im Vergleich zu Blackwell?

Laut eigenen Angaben von NVIDIA bietet Rubin bis zu eine 10× geringere Kosten pro Inferenz-Token und benötigt 4× weniger GPUs zum Training von Mixture-of-Experts-Modellen im Vergleich zu Blackwell. Das Flaggschiff-NVL72-System lässt sich zudem bis zu 18× schneller montieren und warten. Dies sind Herstellerangaben; unabhängige Verifizierung steht noch aus.

Was ist Rubin CPX?

Rubin CPX ist eine neue Klasse von NVIDIA-GPUs, speziell für Inferenz mit massivem Kontext konzipiert – etwa Programmierung oder generative Videoverarbeitung mit einer Million Token. Jede Karte verfügt über 128 GB GDDR7 und bis zu 30 Petaflops NVFP4-Rechenleistung sowie integrierte Videocodierung/-decodierung. Sie wird für Ende 2026 erwartet.

Wann wird NVIDIA Rubin verfügbar sein?

Rubin befindet sich bereits jetzt in vollständiger Produktion; Cloud-Instanzen werden von Anbietern wie AWS, Google Cloud, Microsoft Azure, OCI, CoreWeave, Lambda, Nebius und Nscale in der zweiten Jahreshälfte 2026 erwartet. Rubin CPX erscheint Ende 2026.

Kann ich eine Rubin-GPU für meinen PC kaufen?

Nein – Rubin ist eine Plattform für Rechenzentren, auf die Sie über Cloud-Anbieter zugreifen, keine Consumer-Grafikkarte. NVIDIA hat jedoch eine Roadmap vorgestellt, die diese Architektur in den kommenden Generationen auch für lokale KI-Desktops und -Laptops (ihre RTX-/DGX-Spark-Linie) bereitstellt.

Was bedeutet Rubin für KI-Preise?

Die Senkung der Inferenzkosten ist der wichtigste Hebel hinter fallenden KI-API-Preisen und steigenden Nutzungslimits. Falls NVIDIAs Effizienzangaben zutreffen, sollte Rubin dazu beitragen, die von Ihnen genutzten KI-Tools günstiger, schneller und in der Lage zu machen, deutlich längere Eingaben zu verarbeiten.

Fazit

Vera Rubin ist das deutlichste Signal bisher dafür, wohin sich KI entwickelt: nicht nur intelligentere Modelle, sondern radikal kostengünstigere Modelle im BetriebIndem NVIDIA eine gesamte Sechschip-Plattform gezielt auf Effizienz bei Inferenzanwendungen auslegt – und zudem einen dedizierten Chip für eine Million Token in den Rubin-CPX integriert – greift das Unternehmen die größte einzelne Kostenposition im produktiven Einsatz von KI an. Die behauptete zehnfache Einsparung bei Inferenzkosten wird nicht vollständig auf Ihre Rechnung durchschlagen, und die vom Hersteller angegebenen Zahlen bedürfen einer unabhängigen Überprüfung. Doch die Richtung ist eindeutig: Die Hardware, die KI heute teuer macht, wird durch Hardware ersetzt, die sie morgen günstig macht – und deshalb werden Ihre KI-Tools bis 2026 und darüber hinaus kontinuierlich leistungsfähiger und erschwinglicher werden.

Scroll to Top