Monday, 22 June 2026 | Updating Daily AI insight, written for builders

NVIDIA Vera Rubin explicada: a nova plataforma de IA que reduz os custos de inferência em 10× (2026)

Na Computex 2026, a NVIDIA confirmou que Vera Rubin — sucessora da arquitetura Blackwell, que impulsiona a atual explosão da IA — está agora em produção total. Trata-se do anúncio de hardware para IA mais relevante do ano, e o número principal é impressionante: segundo a NVIDIA, a Rubin reduz o custo da inferência de IA em até 10×. Isso não importa apenas para provedores de nuvem que constroem centros de dados — também influencia o preço de cada ferramenta de IA que você utiliza. Abaixo apresentamos uma análise clara e profissional do que realmente é a Vera Rubin.

Principais conclusões

  • Vera Rubin é a nova plataforma de IA de próxima geração da NVIDIA, sucessora da Blackwell — já em produção total (anunciada na Computex 2026).
  • O destaque é: de acordo com dados divulgados pela NVIDIA, custo por token de inferência até 10× menor e 4× menos GPUs necessárias para treinar modelos Mixture-of-Experts comparado à Blackwell.
  • Trata-se de uma plataforma de seis chips, e não apenas de uma GPU — a versão topo de linha, Vera Rubin NVL72, reúne 72 GPUs Rubin e 36 CPUs Vera.
  • Rubin CPX é uma nova GPU independente projetada especificamente para inferência com contexto de milhões de tokens (programação, vídeo), com 128 GB de memória GDDR7 cada.
  • Disponibilidade: instâncias em nuvem no segundo semestre de 2026 (AWS, Google Cloud, Azure, OCI e outros); Rubin CPX ao final de 2026.

O que é a NVIDIA Vera Rubin?

Vera Rubin é a nova plataforma de computação para IA da NVIDIA — a arquitetura que sucede a Blackwell (geração GB200/GB300, atualmente responsável pela maior parte do treinamento e inferência de IA de ponta). Batizada em homenagem à astrônoma que forneceu as primeiras evidências da matéria escura, a Rubin não é um único chip, mas sim uma plataforma co-projetada de forma integrada, composta por seis chips projetado para funcionar como uma única "fábrica de IA".

O objetivo estratégico é a eficiência. Treinar e implantar os maiores modelos atuais é extremamente caro, e o maior custo único na IA em produção é inferência — na verdade, executar o modelo para os usuários. Rubin é a resposta da NVIDIA a essa curva de custos.

PlataformaNVIDIA Vera Rubin (sucessora da Blackwell)
AnunciadaComputex 2026 — já em plena produção
Sistema principalVera Rubin NVL72 (72 GPUs Rubin + 36 CPUs Vera)
GPU RubinTerceira geração do Transformer Engine, 50 petaflops de desempenho de inferência em NVFP4
CPU Vera88 núcleos personalizados Olympus, arquitetura Armv9.2, NVLink-C2C
Custo de inferência comparado à BlackwellAté 10× menor (dados da NVIDIA)
Disponibilidade em nuvemSegundo semestre de 2026

Os números principais — e seu significado

Dois dados da NVIDIA definem por que o Rubin é relevante:

  • Redução de até 10× no custo por token de inferência em comparação com a Blackwell. O custo de inferência determina o preço de uma chamada à API de IA. Um ganho de eficiência de 10× é exatamente o tipo de mudança radical que permite aos provedores reduzir preços, aumentar limites de taxa ou lançar modelos muito mais capazes ao mesmo custo.
  • Redução de 4× no número de GPUs necessárias para treinar modelos Mixture-of-Experts (MoE). Quase todos os modelos de ponta em 2026 — desde o GPT até o Claude e os principais modelos abertos chineses — são MoE. Reduzir o número de GPUs em 4× diminui diretamente a barreira para treinar modelos em escala de ponta.

Como sempre ocorre com benchmarks fornecidos pelos fabricantes, trate esses dados como os melhores cenários possíveis segundo a NVIDIA até que laboratórios independentes os verifiquem. Mesmo uma fração dos ganhos anunciados reconfigura profundamente a economia da IA. A razão pela qual suas ferramentas de IA continuam ficando mais baratas e rápidas é justamente hardware como este.

Os seis chips que compõem a plataforma

A eficiência do Rubin resulta de um projeto integrado de todo o rack, e não apenas da GPU. A plataforma abrange seis chips:

  1. CPU Vera — 88 núcleos personalizados "Olympus" (Armv9.2), otimizados para raciocínio agêntico e fortemente acoplados às GPUs por meio do NVLink-C2C.
  2. GPU Rubin — o motor de computação, com terceira geração do Transformer Engine, compressão adaptativa acelerada por hardware e 50 petaflops de desempenho de inferência em NVFP4 .
  3. Switch NVLink 6 — o interconector, com 3,6 TB/s por GPU e e 260 TB/s agregados em um único rack NVL72.
  4. SuperNIC ConnectX-9 — rede de alta velocidade integrada ao design do NVL72.
  5. DPU BlueField-4 — habilita armazenamento nativo para IA e reutilização eficiente da cache de pares chave-valor (KV), o que acelera diretamente a inferência com contextos longos.
  6. Switch Ethernet Spectrum-6 — baseado em transceptores de 200G com óptica embutida para fábricas de IA em larga escala.

O sistema principal, o Vera Rubin NVL72, combina 72 GPUs Rubin e 36 CPUs Vera em um único rack — e a NVIDIA afirma que sua montagem e manutenção são até 18× mais rápidas do que as da Blackwell, o que tem enorme impacto em escala de data center.

Rubin CPX: uma GPU projetada para contextos de milhões de tokens

Juntamente com a plataforma padrão, a NVIDIA apresentou uma categoria genuinamente nova: a Rubin CPXGPU CPX Rubin, projetada especificamente para processamento de contextos massivos. Trata-se do chip voltado diretamente para a era dos contextos longos — cargas de trabalho de codificação de software e vídeo generativo com milhões de tokens, cada vez mais exigidas pelos modelos atuais.

Cada Rubin CPX incorpora 128 GB de memória GDDR7 e até e 30 petaflops de poder computacional em NVFP4, além de integrar, de forma exclusiva, hardware dedicado para codificação/decodificação de vídeo juntamente com capacidades de inferência para contextos longos em um único chip. Em escala de rack, o Vera Rubin NVL144 CPX oferece um desempenho de computação de IA declarado de 8 exaflops e 100 TB de memória rápida, o que, segundo a NVIDIA, representa 7,5× mais desempenho de IA do que um sistema GB300 NVL72, com atenção 3× mais rápida. Espera-se seu lançamento no final de 2026.

Para quem acompanha o motivo pelo qual as janelas de contexto continuam se expandindo — como as janelas de 1 milhão de tokens em modelos como DeepSeek e os mais recentes modelos de ponta — o Rubin CPX é o hardware que torna economicamente viável a inferência com milhões de tokens.

Quando você poderá utilizá-la efetivamente?

Rubin é uma plataforma para data centers, portanto você não o comprará diretamente — mas sentirá seu impacto por meio dos serviços que utiliza:

  • Instâncias em nuvem estarão disponíveis na segunda metade de 2026. Entre os primeiros provedores estão: AWS, Google Cloud, Microsoft Azure e OCI, além dos parceiros da NVIDIA Cloud CoreWeave, Lambda, Nebius e Nscale. Se você aluga GPUs, acompanhe nossa seleção dos melhores provedores de GPU em nuvem para IA para saber quando as instâncias Rubin estiverem disponíveis.
  • O Rubin CPX será lançado no final de 2026 para cargas de trabalho com longos contextos e vídeo.
  • O ângulo local: na Computex, a NVIDIA também apresentou uma roadmap trazendo essa arquitetura para desktops e laptops com IA local — sua linha RTX/DGX Spark, com uma geração baseada em Rubin (usando memória LPDDR6), seguida por futuros designs “Rosa” e “Feynman”. Assim, a tecnologia que começa nos data centers está destinada a chegar à sua mesa, assim como ocorre hoje com os computadores pessoais com IA.

Rubin versus Blackwell

DimensãoVera Rubin (próxima geração)Blackwell (atual)
Sistema principalVera Rubin NVL72GB300 NVL72
Custo por token de inferênciaAté 10× menorReferência
GPUs necessárias para treinar um modelo MoE4× menosReferência
Montagem / manutençãoAté 18× mais rápidaReferência
Chip para longos contextosRubin CPX (128 GB, 1 milhão de tokens)
StatusProdução em escala total; nuvem H2 2026Disponível agora

Por que isso importa — mesmo que você nunca a utilize diretamente

É tentador classificar as GPUs para data centers como algo do tipo “não é problema meu”. Mas o Rubin afeta todos que usam IA:

  • Ferramentas de IA mais baratas e capazes. Um ganho de eficiência de até 10× na inferência é o que permite aos provedores reduzir continuamente os preços das APIs e aumentar seus limites. A queda constante no custo de uso de modelos como Claude e GPT é consequência direta desse tipo de salto no hardware.
  • Contextos mais longos, de fato. O Rubin CPX torna economicamente viável a inferência com milhões de tokens, razão pela qual os modelos de ponta continuam ampliando suas janelas de contexto.
  • A pressão sobre as GPUs para consumidores. O outro lado: a demanda insaciável por aceleradores de IA (e pela memória que consomem) é parte do motivo pelo qual as placas de vídeo para consumidores estão escassas e caras em 2026. Se você está montando um sistema local de IA, confira nosso melhores GPUs para LLMs locais guia.
  • O efeito cascata local. O que é embarcado hoje em um rack NVL72 definirá o que estará disponível em caixas de IA para desktop dentro de alguns anos.

Perguntas frequentes

O que é a NVIDIA Vera Rubin?

Vera Rubin é a próxima plataforma de IA da NVIDIA e sucessora da Blackwell, anunciada em produção em escala total na Computex 2026. Trata-se de uma plataforma co-projetada com seis chips (CPU Vera, GPU Rubin, NVLink 6, ConnectX-9, BlueField-4 e Spectrum-6), concebida para reduzir drasticamente o custo de treinamento e execução de modelos de IA.

Quanto o Rubin é mais rápido que a Blackwell?

Segundo dados divulgados pela própria NVIDIA, o Rubin oferece até 10× de redução no custo por token de inferência e requer 4× menos GPUs para treinar modelos Mixture-of-Experts (MoE) comparado à Blackwell. Seu sistema principal, o NVL72, também é até 18× mais rápido para montagem e manutenção. Esses são benchmarks fornecidos pelo fabricante, portanto ainda aguardam verificação independente.

O que é o Rubin CPX?

O Rubin CPX é uma nova classe de GPU da NVIDIA projetada especificamente para inferência com contextos massivos — pense em codificação e vídeo generativo com milhões de tokens. Cada unidade possui 128 GB de memória GDDR7 e até 30 petaflops de desempenho em computação NVFP4, com codificação e decodificação de vídeo integradas. Espera-se seu lançamento no final de 2026.

Quando a NVIDIA Rubin estará disponível?

A Rubin já está em produção em escala total, com instâncias em nuvem previstas para a segunda metade de 2026, oferecidas por provedores como AWS, Google Cloud, Microsoft Azure, OCI, CoreWeave, Lambda, Nebius e Nscale. O Rubin CPX chegará ao final de 2026.

Posso comprar uma GPU Rubin para meu PC?

Não — o Rubin é uma plataforma para data centers, acessada por meio de provedores em nuvem, e não uma placa voltada ao consumidor. Contudo, a NVIDIA apresentou uma roadmap para levar essa arquitetura a desktops e laptops com IA local (linha RTX/DGX Spark) nas próximas gerações.

O que o Rubin significa para os preços da IA?

A redução no custo de inferência é o principal fator por trás da queda contínua nos preços das APIs de IA e do aumento dos limites de uso. Caso as alegações de eficiência da NVIDIA se confirmem, o Rubin deverá ajudar a tornar as ferramentas de IA que você usa mais baratas, mais rápidas e capazes de processar entradas muito mais extensas.

Conclusão

Vera Rubin é o sinal mais claro até agora para onde a IA está caminhando: não apenas modelos mais inteligentes, mas radicalmente mais baratos de executar. Ao projetar em conjunto uma plataforma inteira de seis chips voltada especificamente para a eficiência de inferência — e ao adicionar um chip dedicado de um milhão de tokens no Rubin CPX — a NVIDIA está atacando o maior custo único na implantação comercial de IA. A economia de até 10× em inferência alegada não se refletirá integralmente na sua fatura, e os números divulgados pelo fabricante merecem análise independente. Contudo, a direção é inequívoca: o hardware que torna a IA cara hoje está sendo substituído pelo hardware que a tornará acessível amanhã — e é por isso que suas ferramentas de IA continuarão a melhorar e a se tornar mais acessíveis ao longo de 2026 e além.

Scroll to Top