Na Computex 2026, a NVIDIA confirmou que Vera Rubin — sucessora da arquitetura Blackwell, que impulsiona a atual explosão da IA — está agora em produção total. Trata-se do anúncio de hardware para IA mais relevante do ano, e o número principal é impressionante: segundo a NVIDIA, a Rubin reduz o custo da inferência de IA em até 10×. Isso não importa apenas para provedores de nuvem que constroem centros de dados — também influencia o preço de cada ferramenta de IA que você utiliza. Abaixo apresentamos uma análise clara e profissional do que realmente é a Vera Rubin.
Principais conclusões
- Vera Rubin é a nova plataforma de IA de próxima geração da NVIDIA, sucessora da Blackwell — já em produção total (anunciada na Computex 2026).
- O destaque é: de acordo com dados divulgados pela NVIDIA, custo por token de inferência até 10× menor e 4× menos GPUs necessárias para treinar modelos Mixture-of-Experts comparado à Blackwell.
- Trata-se de uma plataforma de seis chips, e não apenas de uma GPU — a versão topo de linha, Vera Rubin NVL72, reúne 72 GPUs Rubin e 36 CPUs Vera.
- Rubin CPX é uma nova GPU independente projetada especificamente para inferência com contexto de milhões de tokens (programação, vídeo), com 128 GB de memória GDDR7 cada.
- Disponibilidade: instâncias em nuvem no segundo semestre de 2026 (AWS, Google Cloud, Azure, OCI e outros); Rubin CPX ao final de 2026.
- O que é a NVIDIA Vera Rubin?
- Os números principais — e seu significado
- Os seis chips que compõem a plataforma
- Rubin CPX: uma GPU projetada para contextos de milhões de tokens
- Quando você poderá utilizá-la efetivamente?
- Rubin versus Blackwell
- Por que isso importa — mesmo que você nunca a utilize diretamente
- Perguntas frequentes
- Conclusão
- Artigos relacionados
O que é a NVIDIA Vera Rubin?
Vera Rubin é a nova plataforma de computação para IA da NVIDIA — a arquitetura que sucede a Blackwell (geração GB200/GB300, atualmente responsável pela maior parte do treinamento e inferência de IA de ponta). Batizada em homenagem à astrônoma que forneceu as primeiras evidências da matéria escura, a Rubin não é um único chip, mas sim uma plataforma co-projetada de forma integrada, composta por seis chips projetado para funcionar como uma única "fábrica de IA".
O objetivo estratégico é a eficiência. Treinar e implantar os maiores modelos atuais é extremamente caro, e o maior custo único na IA em produção é inferência — na verdade, executar o modelo para os usuários. Rubin é a resposta da NVIDIA a essa curva de custos.
Os números principais — e seu significado
Dois dados da NVIDIA definem por que o Rubin é relevante:
- Redução de até 10× no custo por token de inferência em comparação com a Blackwell. O custo de inferência determina o preço de uma chamada à API de IA. Um ganho de eficiência de 10× é exatamente o tipo de mudança radical que permite aos provedores reduzir preços, aumentar limites de taxa ou lançar modelos muito mais capazes ao mesmo custo.
- Redução de 4× no número de GPUs necessárias para treinar modelos Mixture-of-Experts (MoE). Quase todos os modelos de ponta em 2026 — desde o GPT até o Claude e os principais modelos abertos chineses — são MoE. Reduzir o número de GPUs em 4× diminui diretamente a barreira para treinar modelos em escala de ponta.
Como sempre ocorre com benchmarks fornecidos pelos fabricantes, trate esses dados como os melhores cenários possíveis segundo a NVIDIA até que laboratórios independentes os verifiquem. Mesmo uma fração dos ganhos anunciados reconfigura profundamente a economia da IA. A razão pela qual suas ferramentas de IA continuam ficando mais baratas e rápidas é justamente hardware como este.
Os seis chips que compõem a plataforma
A eficiência do Rubin resulta de um projeto integrado de todo o rack, e não apenas da GPU. A plataforma abrange seis chips:
- CPU Vera — 88 núcleos personalizados "Olympus" (Armv9.2), otimizados para raciocínio agêntico e fortemente acoplados às GPUs por meio do NVLink-C2C.
- GPU Rubin — o motor de computação, com terceira geração do Transformer Engine, compressão adaptativa acelerada por hardware e 50 petaflops de desempenho de inferência em NVFP4 .
- Switch NVLink 6 — o interconector, com 3,6 TB/s por GPU e e 260 TB/s agregados em um único rack NVL72.
- SuperNIC ConnectX-9 — rede de alta velocidade integrada ao design do NVL72.
- DPU BlueField-4 — habilita armazenamento nativo para IA e reutilização eficiente da cache de pares chave-valor (KV), o que acelera diretamente a inferência com contextos longos.
- Switch Ethernet Spectrum-6 — baseado em transceptores de 200G com óptica embutida para fábricas de IA em larga escala.
O sistema principal, o Vera Rubin NVL72, combina 72 GPUs Rubin e 36 CPUs Vera em um único rack — e a NVIDIA afirma que sua montagem e manutenção são até 18× mais rápidas do que as da Blackwell, o que tem enorme impacto em escala de data center.
Rubin CPX: uma GPU projetada para contextos de milhões de tokens
Juntamente com a plataforma padrão, a NVIDIA apresentou uma categoria genuinamente nova: a Rubin CPXGPU CPX Rubin, projetada especificamente para processamento de contextos massivos. Trata-se do chip voltado diretamente para a era dos contextos longos — cargas de trabalho de codificação de software e vídeo generativo com milhões de tokens, cada vez mais exigidas pelos modelos atuais.
Cada Rubin CPX incorpora 128 GB de memória GDDR7 e até e 30 petaflops de poder computacional em NVFP4, além de integrar, de forma exclusiva, hardware dedicado para codificação/decodificação de vídeo juntamente com capacidades de inferência para contextos longos em um único chip. Em escala de rack, o Vera Rubin NVL144 CPX oferece um desempenho de computação de IA declarado de 8 exaflops e 100 TB de memória rápida, o que, segundo a NVIDIA, representa 7,5× mais desempenho de IA do que um sistema GB300 NVL72, com atenção 3× mais rápida. Espera-se seu lançamento no final de 2026.
Para quem acompanha o motivo pelo qual as janelas de contexto continuam se expandindo — como as janelas de 1 milhão de tokens em modelos como DeepSeek e os mais recentes modelos de ponta — o Rubin CPX é o hardware que torna economicamente viável a inferência com milhões de tokens.
Quando você poderá utilizá-la efetivamente?
Rubin é uma plataforma para data centers, portanto você não o comprará diretamente — mas sentirá seu impacto por meio dos serviços que utiliza:
- Instâncias em nuvem estarão disponíveis na segunda metade de 2026. Entre os primeiros provedores estão: AWS, Google Cloud, Microsoft Azure e OCI, além dos parceiros da NVIDIA Cloud CoreWeave, Lambda, Nebius e Nscale. Se você aluga GPUs, acompanhe nossa seleção dos melhores provedores de GPU em nuvem para IA para saber quando as instâncias Rubin estiverem disponíveis.
- O Rubin CPX será lançado no final de 2026 para cargas de trabalho com longos contextos e vídeo.
- O ângulo local: na Computex, a NVIDIA também apresentou uma roadmap trazendo essa arquitetura para desktops e laptops com IA local — sua linha RTX/DGX Spark, com uma geração baseada em Rubin (usando memória LPDDR6), seguida por futuros designs “Rosa” e “Feynman”. Assim, a tecnologia que começa nos data centers está destinada a chegar à sua mesa, assim como ocorre hoje com os computadores pessoais com IA.
Rubin versus Blackwell
| Dimensão | Vera Rubin (próxima geração) | Blackwell (atual) |
|---|---|---|
| Sistema principal | Vera Rubin NVL72 | GB300 NVL72 |
| Custo por token de inferência | Até 10× menor | Referência |
| GPUs necessárias para treinar um modelo MoE | 4× menos | Referência |
| Montagem / manutenção | Até 18× mais rápida | Referência |
| Chip para longos contextos | Rubin CPX (128 GB, 1 milhão de tokens) | — |
| Status | Produção em escala total; nuvem H2 2026 | Disponível agora |
Por que isso importa — mesmo que você nunca a utilize diretamente
É tentador classificar as GPUs para data centers como algo do tipo “não é problema meu”. Mas o Rubin afeta todos que usam IA:
- Ferramentas de IA mais baratas e capazes. Um ganho de eficiência de até 10× na inferência é o que permite aos provedores reduzir continuamente os preços das APIs e aumentar seus limites. A queda constante no custo de uso de modelos como Claude e GPT é consequência direta desse tipo de salto no hardware.
- Contextos mais longos, de fato. O Rubin CPX torna economicamente viável a inferência com milhões de tokens, razão pela qual os modelos de ponta continuam ampliando suas janelas de contexto.
- A pressão sobre as GPUs para consumidores. O outro lado: a demanda insaciável por aceleradores de IA (e pela memória que consomem) é parte do motivo pelo qual as placas de vídeo para consumidores estão escassas e caras em 2026. Se você está montando um sistema local de IA, confira nosso melhores GPUs para LLMs locais guia.
- O efeito cascata local. O que é embarcado hoje em um rack NVL72 definirá o que estará disponível em caixas de IA para desktop dentro de alguns anos.
Perguntas frequentes
O que é a NVIDIA Vera Rubin?
Vera Rubin é a próxima plataforma de IA da NVIDIA e sucessora da Blackwell, anunciada em produção em escala total na Computex 2026. Trata-se de uma plataforma co-projetada com seis chips (CPU Vera, GPU Rubin, NVLink 6, ConnectX-9, BlueField-4 e Spectrum-6), concebida para reduzir drasticamente o custo de treinamento e execução de modelos de IA.
Quanto o Rubin é mais rápido que a Blackwell?
Segundo dados divulgados pela própria NVIDIA, o Rubin oferece até 10× de redução no custo por token de inferência e requer 4× menos GPUs para treinar modelos Mixture-of-Experts (MoE) comparado à Blackwell. Seu sistema principal, o NVL72, também é até 18× mais rápido para montagem e manutenção. Esses são benchmarks fornecidos pelo fabricante, portanto ainda aguardam verificação independente.
O que é o Rubin CPX?
O Rubin CPX é uma nova classe de GPU da NVIDIA projetada especificamente para inferência com contextos massivos — pense em codificação e vídeo generativo com milhões de tokens. Cada unidade possui 128 GB de memória GDDR7 e até 30 petaflops de desempenho em computação NVFP4, com codificação e decodificação de vídeo integradas. Espera-se seu lançamento no final de 2026.
Quando a NVIDIA Rubin estará disponível?
A Rubin já está em produção em escala total, com instâncias em nuvem previstas para a segunda metade de 2026, oferecidas por provedores como AWS, Google Cloud, Microsoft Azure, OCI, CoreWeave, Lambda, Nebius e Nscale. O Rubin CPX chegará ao final de 2026.
Posso comprar uma GPU Rubin para meu PC?
Não — o Rubin é uma plataforma para data centers, acessada por meio de provedores em nuvem, e não uma placa voltada ao consumidor. Contudo, a NVIDIA apresentou uma roadmap para levar essa arquitetura a desktops e laptops com IA local (linha RTX/DGX Spark) nas próximas gerações.
O que o Rubin significa para os preços da IA?
A redução no custo de inferência é o principal fator por trás da queda contínua nos preços das APIs de IA e do aumento dos limites de uso. Caso as alegações de eficiência da NVIDIA se confirmem, o Rubin deverá ajudar a tornar as ferramentas de IA que você usa mais baratas, mais rápidas e capazes de processar entradas muito mais extensas.
Conclusão
Vera Rubin é o sinal mais claro até agora para onde a IA está caminhando: não apenas modelos mais inteligentes, mas radicalmente mais baratos de executar. Ao projetar em conjunto uma plataforma inteira de seis chips voltada especificamente para a eficiência de inferência — e ao adicionar um chip dedicado de um milhão de tokens no Rubin CPX — a NVIDIA está atacando o maior custo único na implantação comercial de IA. A economia de até 10× em inferência alegada não se refletirá integralmente na sua fatura, e os números divulgados pelo fabricante merecem análise independente. Contudo, a direção é inequívoca: o hardware que torna a IA cara hoje está sendo substituído pelo hardware que a tornará acessível amanhã — e é por isso que suas ferramentas de IA continuarão a melhorar e a se tornar mais acessíveis ao longo de 2026 e além.
