Monday, 22 June 2026 | Updating Daily AI insight, written for builders

NVIDIA Vera Rubin explicada: la nueva plataforma de IA que reduce los costes de inferencia 10 veces (2026)

En Computex 2026, NVIDIA confirmó que Vera Rubin —la sucesora de la arquitectura Blackwell, que impulsa actualmente la explosión de la IA— ya está en producción total. Se trata del anuncio más trascendental del año en materia de hardware para IA, y la cifra destacada es impresionante: NVIDIA afirma que Rubin reduce el costo de la inferencia de IA hasta en un factor 10. Esto no solo afecta a los proveedores de infraestructura (hyperscalers) que construyen centros de datos; también determina el precio de cada herramienta de IA que usted utiliza. A continuación se ofrece un análisis claro y profesional de lo que realmente es Vera Rubin.

Conclusiones clave

  • Vera Rubin es la nueva plataforma de IA de NVIDIA, sucesora de Blackwell, ahora en producción total (anunciada en Computex 2026).
  • La cifra destacada: según las cifras de NVIDIA, hasta un 90 % menos de costo por token de inferencia y hasta un 75 % menos de GPU necesarias para entrenar modelos Mixture-of-Experts frente a Blackwell.
  • Es una plataforma de seis chips, no simplemente una GPU: la versión insignia Vera Rubin NVL72 integra 72 GPU Rubin y 36 CPU Vera.
  • Rubin CPX es una GPU nueva y distinta diseñada específicamente para inferencia con contextos de millones de tokens (programación, vídeo), con 128 GB de memoria GDDR7 cada una.
  • Disponibilidad: instancias en la nube a partir de el segundo semestre de 2026 (AWS, Google Cloud, Azure, OCI y otros); Rubin CPX, a finales de 2026.

¿Qué es NVIDIA Vera Rubin?

Vera Rubin es la plataforma de computación para IA de próxima generación de NVIDIA —la arquitectura que sigue a Blackwell (la generación GB200/GB300 que actualmente impulsa la mayor parte del entrenamiento y la inferencia de IA puntera). Bautizada en honor de la astrónoma que aportó las primeras pruebas de la materia oscura, Rubin no es un único chip, sino una plataforma de seis chips diseñada conjuntamente y estrechamente integrada diseñado para funcionar como una única «fábrica de IA».

El objetivo estratégico es la eficiencia. Entrenar y poner en servicio los modelos más grandes actuales resulta extremadamente costoso, y el gasto más elevado en IA en producción es inferencia —en realidad, ejecutar el modelo para los usuarios. Rubin es la respuesta de NVIDIA a esa curva de costos.

PlataformaNVIDIA Vera Rubin (sucesor de Blackwell)
AnunciadoComputex 2026 — ya en producción total
Sistema insigniaVera Rubin NVL72 (72 GPU Rubin + 36 CPU Vera)
GPU RubinMotor Transformer de tercera generación, 50 petaflops de inferencia en NVFP4
CPU Vera88 núcleos personalizados Olympus, arquitectura Armv9.2, NVLink-C2C
Coste de inferencia frente a BlackwellHasta un 10× menor (datos de NVIDIA)
Disponibilidad en la nubeSegunda mitad de 2026

Las cifras destacadas —y su significado

Dos cifras de NVIDIA definen por qué Rubin es relevante:

  • Reducción de hasta un 10× en el coste por token de inferencia frente a Blackwell. El coste de inferencia determina el precio de una llamada a una API de IA. Una mejora de eficiencia del 10× es un cambio radical que permite a los proveedores reducir drásticamente los precios, aumentar los límites de tasa o implementar modelos mucho más potentes al mismo coste.
  • Reducción de un 4× en el número de GPU necesarias para entrenar modelos Mixture-of-Experts (MoE). Casi todos los modelos punteros de 2026 —desde GPT hasta Claude y los modelos chinos abiertos— son MoE. Reducir un 4× la cantidad de GPU necesarias disminuye directamente la barrera para entrenar modelos a escala frontera.

Como siempre ocurre con los resultados de rendimiento publicados por los fabricantes, considérense estas cifras como los mejores casos posibles según NVIDIA hasta que laboratorios independientes las verifiquen. Sin embargo, incluso una fracción de las mejoras anunciadas transforma la economía de la IA. La razón por la que sus herramientas de IA siguen volviéndose más económicas y rápidas es precisamente hardware como este.

Los seis chips que componen la plataforma

La eficiencia de Rubin proviene de la co-diseño de todo el rack, no solo de la GPU. La plataforma abarca seis chips:

  1. CPU Vera — 88 núcleos personalizados «Olympus» (Armv9.2), optimizados para razonamiento agente y estrechamente acoplados a las GPU mediante NVLink-C2C.
  2. GPU Rubin — el motor de cómputo, con un Motor Transformer de tercera generación, compresión adaptativa acelerada por hardware y 50 petaflops de rendimiento de inferencia en NVFP4 .
  3. Conmutador NVLink 6 — el interconector, con 3,6 TB/s por GPU y y 260 TB/s agregados en un único rack NVL72.
  4. SuperNIC ConnectX-9 — red de alta velocidad integrada en el diseño del NVL72.
  5. DPU BlueField-4 — impulsa el almacenamiento nativo para IA y una reutilización eficiente de la memoria caché clave-valor (KV), lo que acelera directamente la inferencia con contextos largos.
  6. Conmutador Ethernet Spectrum-6 — basado en transceptores SerDes de 200 Gb/s con óptica empaquetada conjuntamente para fábricas de IA escalables.

El sistema insignia, el Vera Rubin NVL72, combina 72 GPU Rubin y 36 CPU Vera en un único rack —y NVIDIA afirma que su ensamblaje y mantenimiento son hasta 18× más rápidos que los de Blackwell, lo cual tiene una importancia enorme a escala de centro de datos.

Rubin CPX: una GPU diseñada para contextos de millones de tokens

Junto con la plataforma estándar, NVIDIA presentó una categoría totalmente nueva: la Rubin CPXGPU CPX Rubin, una GPU «diseñada específicamente para el procesamiento de contextos masivos». Este chip apunta directamente a la era de los contextos largos —las cargas de trabajo de codificación de software y generación de vídeo con millones de tokens que los modelos actuales exigen cada vez más.

Cada Rubin CPX incorpora 128 GB de GDDR7 y hasta y 30 petaflops de potencia computacional en NVFP4, e integra de forma única hardware de codificación/decodificación de vídeo junto con la inferencia de contextos largos en un solo chip. A escala de rack, el Vera Rubin NVL144 CPX ofrece una potencia de cómputo de IA declarada de 8 exaflops y 100 TB de memoria rápida, lo que, según NVIDIA, representa un 7,5× más de rendimiento en IA que un sistema GB300 NVL72, con atención 3× más rápida. Se espera su lanzamiento a finales de 2026 a finales de 2026.

Para quienes siguen de cerca por qué las ventanas de contexto siguen ampliándose —como las ventanas de 1 millón de tokens en modelos como DeepSeek y los últimos modelos punteros — Rubin CPX es el hardware que hace económicamente viable la inferencia con millones de tokens.

¿Cuándo podrá usarla realmente?

Rubin es una plataforma para centros de datos, así que no podrás comprarla directamente; sin embargo, la percibirás a través de los servicios que utilizas:

  • Las instancias en la nube estarán disponibles en la segunda mitad de 2026. Entre los primeros proveedores se encuentran: AWS, Google Cloud, Microsoft Azure y OCI, además de los socios cloud de NVIDIA: CoreWeave, Lambda, Nebius y Nscale. Si alquilas GPUs, consulta nuestro resumen de los mejores proveedores cloud de GPU para IA para saber cuándo estarán disponibles las instancias Rubin.
  • Rubin CPX se lanzará a finales de 2026 para cargas de trabajo con contextos largos y video.
  • El ángulo local: en Computex, NVIDIA también presentó una hoja de ruta para llevar esta arquitectura a ordenadores de escritorio y portátiles con IA local —su línea RTX/DGX Spark, con una generación basada en Rubin (que emplea memoria LPDDR6), seguida de futuros diseños «Rosa» y «Feynman». Así, la tecnología que comienza en los centros de datos está destinada a llegar al escritorio, tal como ocurre hoy con los ordenadores personales con IA.

Rubin frente a Blackwell

DimensiónVera Rubin (próxima generación)Blackwell (actual)
Sistema insigniaVera Rubin NVL72GB300 NVL72
Coste de inferencia por tokenHasta un 10× menorReferencia
GPUs necesarias para entrenar un modelo MoE4× menosReferencia
Ensamblaje/mantenimientoHasta un 18× más rápidoReferencia
Chip para contextos largosRubin CPX (128 GB, 1 millón de tokens)
EstadoProducción completa; nube, segundo semestre de 2026Disponible ahora

Por qué importa —incluso si nunca la toca

Es tentador clasificar las GPU para centros de datos bajo la etiqueta «no es mi problema». Pero Rubin afecta a todos los usuarios de IA:

  • Herramientas de IA más económicas y potentes. Una mejora de eficiencia en inferencia de hasta 10× es lo que permite a los proveedores seguir reduciendo los precios de sus APIs y aumentando sus límites. La caída constante del coste de uso de modelos como Claude y GPT es consecuencia directa de avances hardware como este.
  • Contextos más largos, de verdad. Rubin CPX hace económicamente viable la inferencia con millones de tokens, razón por la cual los modelos punteros siguen ampliando sus ventanas de contexto.
  • La presión sobre las GPU para consumidores. La contrapartida: la demanda insaciable de aceleradores de IA (y de la memoria que consumen) forma parte de la razón por la que las tarjetas gráficas para consumidores son escasas y caras en 2026. Si estás montando un sistema local de IA, consulta nuestra mejores GPU para LLM locales guía.
  • La filtración hacia lo local. Lo que hoy se embarca en un rack NVL72 definirá lo que llegará a una caja de IA de escritorio dentro de unos años.

Preguntas frecuentes

¿Qué es NVIDIA Vera Rubin?

Vera Rubin es la próxima plataforma de IA de NVIDIA y la sucesora de Blackwell, anunciada en producción completa en Computex 2026. Es una plataforma co-diseñada de seis chips (CPU Vera, GPU Rubin, NVLink 6, ConnectX-9, BlueField-4 y Spectrum-6), concebida para reducir drásticamente el coste del entrenamiento y ejecución de modelos de IA.

¿Cuánto más rápido es Rubin que Blackwell?

Según las cifras oficiales de NVIDIA, Rubin ofrece hasta un 10× de reducción en el coste de inferencia por token y requiere 4× menos GPU para entrenar modelos Mixture-of-Experts (MoE) comparado con Blackwell. Su sistema insignia NVL72 también es hasta un 18× más rápido de ensamblar y mantener. Estas cifras corresponden a benchmarks proporcionados por el fabricante, por lo que aún se espera su verificación independiente.

¿Qué es Rubin CPX?

Rubin CPX es una nueva clase de GPU de NVIDIA diseñada específicamente para inferencia con contextos masivos —por ejemplo, programación o generación de video con millones de tokens—. Cada unidad dispone de 128 GB de memoria GDDR7 y hasta 30 petaflops de potencia computacional en NVFP4, además de codificación/decodificación de video integrada. Se espera su lanzamiento a finales de 2026.

¿Cuándo estará disponible NVIDIA Rubin?

Rubin ya está en producción completa, y se prevé que las instancias en la nube estén disponibles en la segunda mitad de 2026 con proveedores como AWS, Google Cloud, Microsoft Azure, OCI, CoreWeave, Lambda, Nebius y Nscale. Rubin CPX llegará a finales de 2026.

¿Puedo comprar una GPU Rubin para mi PC?

No: Rubin es una plataforma para centros de datos a la que accederás mediante proveedores cloud, no una tarjeta para consumidores. No obstante, NVIDIA ha delineado una hoja de ruta para llevar esta arquitectura a ordenadores de escritorio y portátiles con IA local (su línea RTX/DGX Spark) en las próximas generaciones.

¿Qué implica Rubin para los precios de la IA?

La reducción del coste de inferencia es el principal factor detrás de la bajada de precios de las APIs de IA y del aumento de sus límites de uso. Si las afirmaciones de eficiencia de NVIDIA se confirman, Rubin debería ayudar a hacer que las herramientas de IA que usas sean más económicas, más rápidas y capaces de procesar entradas mucho más largas.

Conclusión final

Vera Rubin es la señal más clara hasta la fecha de hacia dónde se dirige la IA: no solo modelos más inteligentes, sino radicalmente más baratos de ejecutarAl diseñar conjuntamente una plataforma completa de seis chips centrada en la eficiencia de la inferencia —y al incorporar un chip dedicado de un millón de tokens en el CPX Rubin—, NVIDIA está atacando el único costo más elevado en la IA en producción. El ahorro de hasta 10× en inferencia que se anuncia no se reflejará íntegramente en su factura, y las cifras del fabricante merecen una verificación independiente. Sin embargo, la dirección es inequívoca: el hardware que hoy hace cara la IA está siendo reemplazado por hardware que la hará económica mañana; y eso es precisamente por lo que sus herramientas de IA seguirán mejorando y volviéndose más asequibles a lo largo de 2026 y más allá.

Scroll to Top