Monday, 22 June 2026 | Updating Daily AI insight, written for builders

NVIDIA Vera Rubin spiegata: la nuova piattaforma IA che riduce i costi di inferenza di 10 volte (2026)

Al Computex 2026, NVIDIA ha confermato che Vera Rubin — successore dell'architettura Blackwell che alimenta l'attuale boom dell'IA — è ora in produzione completa. Si tratta dell'annuncio hardware per l'IA più rilevante dell'anno, e il dato principale è impressionante: secondo NVIDIA, Rubin riduce i costi di inferenza per l'IA di fino a 10 volte. Ciò non riguarda soltanto i grandi fornitori di servizi cloud che costruiscono data center, ma influenza anche il prezzo di ogni strumento basato sull'IA che utilizzi. Di seguito trovi una panoramica chiara e professionale di cosa sia effettivamente Vera Rubin.

Punti chiave

  • Vera Rubin è la prossima generazione di piattaforma per l'IA di NVIDIA, successore di Blackwell — attualmente in produzione completa (annunciata al Computex 2026).
  • Il dato principale: secondo i dati forniti da NVIDIA costo per token di inferenza fino a 10 volte inferiore e 4 volte meno GPU necessarie per addestrare modelli Mixture-of-Experts rispetto a Blackwell.
  • Si tratta di una piattaforma composta da sei chip, non di una singola GPU: la versione top di gamma Vera Rubin NVL72 integra 72 GPU Rubin e 36 CPU Vera.
  • Rubin CPX è una nuova GPU dedicata specificamente all' inferenza su contesti da milioni di token (programmazione, video), dotata di 128 GB di memoria GDDR7 ciascuna.
  • Disponibilità: istanze cloud a partire dal secondo semestre 2026 (AWS, Google Cloud, Azure, OCI e altri); Rubin CPX disponibile entro la fine del 2026.

Cos'è NVIDIA Vera Rubin?

Vera Rubin è la nuova piattaforma di calcolo per l'IA di NVIDIA — l'architettura che segue Blackwell (la generazione GB200/GB300 attualmente alla base della maggior parte dell'addestramento e dell'inferenza AI di ultima generazione). Chiamata così in onore dell'astronoma che fornì le prime prove dell'esistenza della materia oscura, Rubin non è un singolo chip, bensì una piattaforma di sei chip progettata in modo integrato e sinergico progettato per funzionare come un’unica «fabbrica dell’IA».

L’obiettivo strategico è l’efficienza. Addestrare e distribuire i modelli più grandi di oggi è estremamente costoso, e il singolo costo maggiore nell’IA in produzione è inferenza — ovvero eseguire effettivamente il modello per gli utenti. Rubin è la risposta di NVIDIA a questa curva dei costi.

PiattaformaNVIDIA Vera Rubin (successore di Blackwell)
AnnunciatoComputex 2026 — ora in piena produzione
Sistema di puntaVera Rubin NVL72 (72 GPU Rubin + 36 CPU Vera)
GPU RubinMotore Transformer di terza generazione, 50 petaflops di prestazioni di inferenza in NVFP4
CPU Vera88 core personalizzati «Olympus», architettura Armv9.2, NVLink-C2C
Costo di inferenza rispetto a BlackwellFino al 10× inferiore (dati NVIDIA)
Disponibilità nel cloudSecondo semestre 2026

I dati principali — e il loro significato

Due cifre fornite da NVIDIA definiscono il motivo per cui Rubin è rilevante:

  • Riduzione fino al 10× del costo per token di inferenza rispetto a Blackwell. Il costo di inferenza determina il prezzo di una chiamata API basata sull’IA. Un guadagno di efficienza pari a 10× rappresenta un salto di qualità tale da consentire ai provider di ridurre drasticamente i prezzi, aumentare i limiti di frequenza o distribuire modelli molto più potenti allo stesso costo.
  • Riduzione di 4× del numero di GPU necessarie per addestrare modelli Mixture-of-Experts (MoE). Quasi ogni modello all’avanguardia nel 2026 — da GPT a Claude fino ai principali modelli cinesi open source — è un MoE. Ridurre di 4× il numero di GPU necessarie abbassa direttamente la barriera all’addestramento di modelli su scala all’avanguardia.

Come sempre con i benchmark dei produttori, questi dati vanno considerati come i risultati migliori ottenibili secondo NVIDIA, finché laboratori indipendenti non ne avranno verificato l’accuratezza. Tuttavia, anche una frazione dei miglioramenti dichiarati trasforma profondamente l’economia dell’IA. Il motivo per cui gli strumenti basati sull’IA continuano a diventare sempre più economici e veloci è proprio l’hardware di questo tipo.

I sei chip che compongono la piattaforma

L’efficienza di Rubin deriva dalla progettazione integrata dell’intero rack, e non solo della GPU. La piattaforma comprende sei chip:

  1. CPU Vera — 88 core personalizzati «Olympus» (Armv9.2), ottimizzati per il ragionamento agente e strettamente accoppiati alle GPU tramite NVLink-C2C.
  2. GPU Rubin — il motore di calcolo, dotato di un Motore Transformer di terza generazione, compressione adattiva accelerata in hardware e 50 petaflops di prestazioni di inferenza in NVFP4 .
  3. Switch NVLink 6 — l’interconnessione, con una larghezza di banda di 3,6 TB/s per GPU e e 260 TB/s aggregate nell’intero rack NVL72.
  4. ConnectX-9 SuperNIC — rete ad alta velocità integrata nella progettazione dell’NVL72.
  5. BlueField-4 DPU — abilita l’archiviazione nativa per l’IA e un efficiente riutilizzo della cache chiave-valore (KV), che accelera direttamente l’inferenza su contesti lunghi.
  6. Switch Ethernet Spectrum-6 — basato su SerDes da 200 G con ottiche co-pacchettizzate per scale-out nelle fabbriche dell’IA.

Il sistema di punta, il Vera Rubin NVL72, integra 72 GPU Rubin e 36 CPU Vera in un unico rack — e NVIDIA afferma che la sua assemblatura e manutenzione sono fino a 18× più rapide rispetto a Blackwell, un vantaggio di enorme rilevanza su scala data-center.

Rubin CPX: una GPU progettata per contesti da milioni di token

Accanto alla piattaforma standard, NVIDIA ha presentato una categoria completamente nuova: il Rubin CPXRubin CPX, una GPU «progettata appositamente per l’elaborazione di contesti massivi». Questo chip è mirato esplicitamente all’era dei contesti lunghi — carichi di lavoro come la generazione di codice software su milioni di token o video generativi — richiesti in misura crescente dai modelli attuali.

Ogni Rubin CPX integra 128 GB di memoria GDDR7 e fino a e 30 petaflops di potenza computazionale in NVFP4, e integra in modo unico l’hardware per la codifica/decodifica video insieme all’inferenza su contesti lunghi su un singolo chip. A livello di rack, il Vera Rubin NVL144 CPX garantisce, secondo NVIDIA, una potenza computazionale AI dichiarata pari a 8 exaflops e 100 TB di memoria ad alte prestazioni, che NVIDIA afferma essere 7,5× superiore in termini di prestazioni AI rispetto a un sistema GB300 NVL72, con un'attenzione 3× più veloce. È previsto per la fine del 2026.

Per chi si chiede perché le finestre di contesto continuino ad allargarsi — come le finestre da 1 milione di token nei modelli DeepSeek e negli ultimi modelli di frontiera — il Rubin CPX è l’hardware che rende economicamente sostenibile l’inferenza su milioni di token.

Quando potrai utilizzarla concretamente?

Rubin è una piattaforma per data center, quindi non lo acquisterai direttamente — ma ne percepirai l’impatto attraverso i servizi che utilizzi:

  • Le istanze cloud saranno disponibili nella seconda metà del 2026. Tra i primi provider: AWS, Google Cloud, Microsoft Azure e OCI, oltre ai partner cloud NVIDIA CoreWeave, Lambda, Nebius e Nscale. Se noleggi GPU, consulta la nostra rassegna dei migliori provider cloud di GPU per l’IA per sapere quando saranno disponibili le istanze Rubin.
  • Il Rubin CPX sarà disponibile alla fine del 2026 per carichi di lavoro con contesti lunghi e video.
  • L’angolazione locale: al Computex, NVIDIA ha inoltre delineato una roadmap per portare questa architettura verso desktop e laptop per IA locale — la sua linea RTX/DGX Spark, con una generazione basata su Rubin (che utilizza memoria LPDDR6), seguita dai futuri design «Rosa» e «Feynman». Dunque la tecnologia che nasce nel data center è destinata a raggiungere la scrivania, proprio come avviene oggi con i computer personali per l’IA.

Rubin contro Blackwell

DimensioneVera Rubin (prossima generazione)Blackwell (generazione attuale)
Sistema di puntaVera Rubin NVL72GB300 NVL72
Costo per token nell’inferenzaFino al 10× inferioreRiferimento
GPU necessarie per addestrare un modello MoE4× menoRiferimento
Assemblaggio/manutenzioneFino al 18× più veloceRiferimento
Chip per contesti lunghiRubin CPX (128 GB, 1 milione di token)
StatoProduzione completa; cloud H2 2026Disponibile ora

Perché è importante — anche se non la toccherai mai

È tentatore classificare le GPU per data center sotto la voce «non è un mio problema». Ma Rubin riguarda tutti coloro che usano l’IA:

  • Strumenti AI più economici e performanti. Un guadagno di efficienza nell’inferenza pari a 10× consente ai provider di ridurre continuamente i prezzi delle API e aumentare i limiti d’uso. Il calo costante del costo di utilizzo di modelli come Claude e GPT è diretta conseguenza di questo tipo di balzo tecnologico hardware.
  • Contesti più lunghi, davvero. Il Rubin CPX rende economica l’inferenza su milioni di token, motivo per cui i modelli di frontiera continuano ad estendere le proprie finestre di contesto.
  • La pressione sulle GPU consumer. Il rovescio della medaglia: la domanda insaziabile di acceleratori AI (e della memoria che richiedono) è in parte responsabile della scarsità e dell’aumento dei prezzi delle schede grafiche consumer nel 2026. Se stai costruendo un sistema AI locale, consulta la nostra migliori GPU per LLM locali guida.
  • Il trickle-down locale. Ciò che oggi viene spedito in un rack NVL72 definirà ciò che arriverà in una workstation desktop per IA tra un paio d’anni.

Domande frequenti

Cos'è NVIDIA Vera Rubin?

Vera Rubin è la prossima piattaforma AI di NVIDIA e il successore di Blackwell, annunciata in produzione completa al Computex 2026. Si tratta di una piattaforma co-progettata composta da sei chip (CPU Vera, GPU Rubin, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6), concepita per ridurre drasticamente il costo di addestramento ed esecuzione dei modelli AI.

Quanto è più veloce Rubin rispetto a Blackwell?

Secondo i dati forniti da NVIDIA, Rubin garantisce una riduzione fino al 10× del costo per token nell’inferenza e richiede 4× meno GPU per addestrare modelli Mixture-of-Experts rispetto a Blackwell. Il suo sistema flagship NVL72 è inoltre fino a 18× più veloce da assemblare e manutenere. Si tratta di benchmark forniti dal produttore, pertanto la verifica indipendente è ancora in corso.

Cos’è il Rubin CPX?

Il Rubin CPX è una nuova classe di GPU NVIDIA progettata appositamente per l’inferenza su contesti massicci — pensiamo alla programmazione con milioni di token e alla generazione video. Ogni unità dispone di 128 GB di memoria GDDR7 e fino a 30 petaflops di potenza computazionale NVFP4, con codifica/decodifica video integrata. È previsto per la fine del 2026.

Quando sarà disponibile NVIDIA Rubin?

Rubin è già in produzione completa, con istanze cloud previste per la seconda metà del 2026 da provider quali AWS, Google Cloud, Microsoft Azure, OCI, CoreWeave, Lambda, Nebius e Nscale. Il Rubin CPX sarà disponibile alla fine del 2026.

Posso acquistare una GPU Rubin per il mio PC?

No — Rubin è una piattaforma per data center a cui si accede tramite provider cloud, non una scheda grafica consumer. Tuttavia, NVIDIA ha illustrato una roadmap per portare questa architettura sui desktop e laptop per IA locale (la linea RTX/DGX Spark) nelle prossime generazioni.

Cosa significa Rubin per i prezzi dell’IA?

Un costo inferiore per l’inferenza è il principale fattore alla base della riduzione dei prezzi delle API AI e dell’aumento dei limiti d’uso. Se le affermazioni di NVIDIA sull’efficienza si dimostreranno fondate, Rubin dovrebbe contribuire a rendere gli strumenti AI che utilizzi più economici, più veloci e in grado di gestire input molto più lunghi.

Conclusione

Vera Rubin è il segnale più chiaro finora sulla direzione che sta prendendo l’IA: non solo modelli più intelligenti, ma anche radicalmente meno costosi da eseguireProgettando congiuntamente un'intera piattaforma a sei chip incentrata sull'efficienza dell'inferenza — e aggiungendo un chip dedicato da un milione di token nel Rubin CPX — NVIDIA sta affrontando il singolo costo più elevato nell’AI in produzione. Il risparmio dichiarato del 10× sull’inferenza non si rifletterà interamente sulla vostra fattura, e i dati forniti dal produttore meritano un’analisi indipendente. Tuttavia, la direzione è inequivocabile: l’hardware che oggi rende costosa l’AI sta per essere sostituito da hardware che la renderà economica domani — ed è proprio per questo che gli strumenti AI a vostra disposizione continueranno a migliorare e a diventare sempre più accessibili fino al 2026 e oltre.

Scroll to Top