Is the Huawei Ascend 950 better than NVIDIA's Blackwell or Rubin?

No, not per chip. A single Ascend 950 lands around Hopper-class performance — roughly 1 PFLOPS FP8 and 2 PFLOPS FP4 — while NVIDIA's Rubin VR200 targets about 35 PFLOPS of FP4 for training and 50 PFLOPS for inference. Huawei's argument is at the system level: wire thousands of chips together and beat a smaller NVIDIA rack on aggregate.

When does the Ascend 950DT actually ship?

It reaches Huawei Cloud in August 2026 as a cloud-accessible service, with a full commercial launch (cards and SuperPoD servers) slated for Q4 2026. The 950PR began shipping earlier, in Q1 2026.

What is openPangu and how is it different from Pangu Pro MoE 72B?

openPangu 2.0, released at HDC 2026, is the latest open-source family: a 505B-parameter Pro model (18B active) and a 92B Flash model (6B active), both with 512K context. The 2025 Pangu Pro MoE 72B was the earlier model that introduced the Mixture of Grouped Experts architecture tuned for Ascend.

Can Huawei make enough Ascend chips to matter?

That is the real limit. By SemiAnalysis's estimate, HBM supply caps output at roughly 250,000–300,000 Ascend-class chips a year, and SMIC's 7nm yields are weak. Even the most Huawei-favorable CFR scenario has it fielding only about 5% of NVIDIA's aggregate AI compute in 2026, with the median estimate closer to 1%.

What are HiBL and HiZQ memory?

They are Huawei's homegrown high-bandwidth memory, developed because export controls restrict access to the latest third-party HBM. The 950PR uses 128 GB of HiBL 1.0 (~1.6 TB/s); the 950DT uses 144 GB of HiZQ 2.0 (~4.0 TB/s).

Why is Huawei open-sourcing CANN and the Pangu models?

To break NVIDIA's software lock-in. CUDA is NVIDIA's real moat, so Huawei is opening CANN (its CUDA equivalent), the Mind toolchain, and the Pangu models to lower the cost of porting and build a developer ecosystem around Ascend.

What does "4 zettaflops by 2028" actually refer to?

It is a system-level target for the Atlas 960 SuperCluster — a million-card cluster — at FP4 precision, not a single chip. Individual Ascend accelerators are measured in petaflops, three orders of magnitude lower.

Huawei Ascend 950 e Pangu: A Estratégia Chinesa de Chips de IA para 2026

A Huawei dedicou os últimos nove meses a transformar seus planos de silício para IA em um cronograma concreto. Na conferência Huawei Connect, realizada em setembro passado, a empresa divulgou uma rota de desenvolvimento com quatro chips Ascend; na Conferência Huawei Cloud INSPIRE Creators, realizada em junho deste ano, atribuiu datas próximas ao componente mais importante desse plano. O Ascend 950DT, membro da família 950 destinado ao treinamento e à geração de tokens (decode), estará disponível na Huawei Cloud em agosto de 2026, com lançamento comercial completo no quarto trimestre de 2026. Chen Lin, vice-presidente da empresa, resumiu esse ritmo como «uma nova geração por ano, dobrando a potência computacional».

Essa é a proposta. Este artigo analisa até que ponto ela é realista. Analisaremos detalhadamente a rota de desenvolvimento dos chips e suas especificações reais, os modelos openPangu treinados nos chips Ascend, o impulso de código aberto previsto para o fim do ano em torno da plataforma CANN e da ferramenta Mind, além das restrições que ninguém mencionou na apresentação principal: um limite tecnológico de 7 nm na SMIC, uma oferta doméstica de HBM incapaz de acompanhar a demanda e uma lacuna por chip em relação às soluções da NVIDIA, que o próprio cronograma reconhece discretamente.

Principais conclusões

Um chip por ano, cada um com desempenho aproximadamente duas vezes maior que o anterior. Ascend 950PR (primeiro trimestre de 2026), Ascend 950DT (disponível na nuvem em agosto de 2026, lançamento comercial no quarto trimestre de 2026), Ascend 960 (quarto trimestre de 2027), Ascend 970 (quarto trimestre de 2028), com objetivo final de atingir um sistema capaz de 4 zettaflops em FP4 até 2028.
O Ascend 950 é um chip projetado para equivalência com a arquitetura Hopper, não um substituto direto da Blackwell. Por chip, oferece cerca de 1 PFLOPS em FP8 / 2 PFLOPS em FP4, com 128–144 GB de HBM desenvolvida internamente pela Huawei — um desempenho sólido, mas apenas uma fração do oferecido por uma única GPU NVIDIA Rubin .
A verdadeira arma da Huawei é a escala. O Atlas 950 SuperPoD interconecta 8.192 chips e afirma superar, em termos agregados de poder computacional, memória e largura de banda, a solução NVL144 da NVIDIA, graças puramente à força bruta da escala.
O openPangu 2.0 foi disponibilizado como código aberto na HDC 2026. Um modelo Pro com 505 bilhões de parâmetros (18 bilhões ativos) e um modelo Flash com 92 bilhões de parâmetros (6 bilhões ativos), ambos com contexto de 512K tokens, tendo sete componentes liberados a partir de 30 de junho.
A restrição mais honesta é a fabricação. A SMIC permanece presa ao processo de 7 nm e a HBM desenvolvida internamente é o gargalo crítico; mesmo no cenário mais otimista entre os analistas favoráveis à Huawei, sua capacidade agregada de computação para IA em 2026 alcançará apenas cerca de 5% da oferecida pela NVIDIA, enquanto a estimativa mediana é ainda menor.
Até mesmo o próprio cronograma da Huawei revela uma regressão em 2026. O Ascend 950PR/950DT possui desempenho total de processamento inferior ao do Ascend 910C de 2025; segundo o próprio plano da Huawei, o primeiro chip capaz de superar o H200 será o Ascend 960, previsto para o quarto trimestre de 2027.

O cronograma: uma nova geração por ano

A narrativa da Huawei segue um ritmo metrônomico: quatro partes, uma por ano, cada uma aproximadamente duas vezes mais potente que a anterior:

Ascend 950PR — primeiro trimestre de 2026, voltado para preenchimento inicial (prefill) e sistemas de recomendação
Ascend 950DT — disponível na nuvem em agosto de 2026, lançamento comercial no quarto trimestre de 2026, voltado para geração de tokens (decode) e treinamento contínuo
Ascend 960 — quarto trimestre de 2027
Ascend 970 — quarto trimestre de 2028

Os sufixos «PR» e «DT» são a parte mais interessante. Em vez de lançar um acelerador de propósito geral, a Huawei dividiu a inferência em duas especializações distintas. O 950PR é otimizado para a fase de preenchimento inicial (prefill) — a etapa computacionalmente intensiva de processamento do prompt — e para sistemas de recomendação. Já o 950DT lida com a geração de tokens (decode) e com o treinamento sustentado, razão pela qual dispõe de memória mais capaz. Se você leu nossa explicação sobre NPU versus GPUisso representa uma ideia familiar levada ainda mais longe: especializar o silício conforme a fase específica da carga de trabalho.

O número divulgado — aproximadamente 4 zettaflops em FP4 até 2028 — é uma meta definida para o nível de sistema do Atlas 960 SuperCluster, não para um único chip. Mantenha essa distinção sempre em mente sempre que vir um valor expresso em zettaflops associado à Huawei; esses números impressionantes descrevem sempre um prédio inteiro cheio de aceleradores, nunca o acelerador isoladamente.

O que realmente é o Ascend 950

Abaixo estão as especificações por chip divulgadas pela Huawei. Trata-se de dados fornecidos pelo fabricante para produtos que, até meados de junho de 2026, estavam apenas parcialmente disponíveis no mercado; portanto, devem ser considerados metas, e não resultados validados por benchmarks.

Especificações	Ascend 950PR	Ascend 950DT
Disponibilidade	Primeiro trimestre de 2026	Nuvem em agosto de 2026, lançamento comercial no quarto trimestre de 2026
Função	Preenchimento inicial (prefill) / sistemas de recomendação	Decodificação / treinamento
Cálculo em FP8	~1 PFLOPS	~1 PFLOPS
Cálculo em FP4	~2 PFLOPS	~2 PFLOPS
Memória	128 GB de HiBL 1.0	144 GB de HiZQ 2.0
Largura de banda de memória	~1,6 TB/s	~4,0 TB/s
Interconexão	2 TB/s	2 TB/s

O aspecto verdadeiramente notável aqui é a memória. HiBL e HiZQ são memórias de alta largura de banda desenvolvidas internamente pela Huawei — uma HBM (memória de largura de banda elevada) doméstica, criada porque as restrições às exportações impediram o acesso fácil às mais recentes pilhas fornecidas pela SK Hynix, Micron e Samsung. O fato de um fornecedor chinês lançar uma HBM competitiva integrada ao pacote já representa um feito de engenharia real, e os 144 GB do 950DT com largura de banda de 4,0 TB/s situam-se dentro da faixa esperada para uma unidade moderna voltada ao treinamento. A Huawei também afirma que a interconexão de 2 TB/s do 950DT é cerca de 2,5 vezes maior que a do seu antecessor, o 910C — mais uma vez, uma informação divulgada pela própria empresa.

Agora, a realidade. A VR200 Rubin da NVIDIA, também prevista para o segundo semestre de 2026, tem como meta aproximadamente 35 PFLOPS em FP4 para treinamento e cerca de 50 PFLOPS em FP4 para inferência, com 288 GB de HBM4 e largura de banda de aproximadamente 22 TB/s. (Esses são rótulos próprios da NVIDIA — treinamento versus inferência — e não uma divisão densa versus esparsa.) Em termos de desempenho bruto por chip em FP4, isso representa uma lacuna de cerca de 17x a 25x em comparação com os ~2 PFLOPS de um único Ascend 950, dependendo de qual valor da Rubin for considerado. A própria placa Atlas 350 da Huawei, baseada no 950PR, afirma oferecer 1,56 PFLOPS em FP4 e "2,8 vezes o desempenho do H20" — e mesmo essa comparação se dá com o H20 reduzido e adaptado às restrições de exportação, não com uma GPU Blackwell ou Rubin completa, permanecendo ainda uma declaração da fabricante à espera de testes independentes. O resumo justo em uma frase, repetido por analistas especializados em silício, é que um único Ascend 950 alcança um desempenho aproximadamente equivalente ao da geração Hopper da NVIDIA, não ao que a NVIDIA está comercializando em 2026. Para contexto sobre os produtos da NVIDIA, consulte nossa análise da Vera Rubin.

Escala como estratégia

A Huawei sabe que não pode vencer a batalha chip a chip, portanto não está tentando fazê-lo. Sua aposta está na arquitetura de sistema. O SuperPoD Atlas 950 reúne 8.192 aceleradores Ascend 950DT em uma única máquina lógica: aproximadamente 8 EFLOPS em FP8 e 16 EFLOPS em FP4, 1.152 TB de memória e cerca de 16 PB/s de largura de banda de interconexão através de uma malha óptica. Ao agrupar 64 desses SuperPoDs em um Atlas 950 SuperCluster, obtém-se mais de 520.000 NPUs entregando cerca de 524 EFLOPS em FP8 e aproximadamente 1 zettaflops em FP4. O Atlas 960 SuperCluster, previsto para 2027, avança para o nível de um milhão de chips e atinge as cifras de 2/4 zettaflops (FP8/FP4).

Em comparação com a NVL144 da NVIDIA, a Huawei afirma que o 950 SuperPoD incorpora aproximadamente uma ordem de grandeza mais aceleradores e cerca de 6,7 vezes mais poder computacional agregado, além de muito mais memória (cerca de 15 vezes) e largura de banda de interconexão. Isso pode ser simultaneamente verdadeiro e enganoso: você está comparando um pod de 8.192 chips com um rack de 144 GPUs. A leitura honesta é que, se você tiver espaço físico ilimitado, energia barata e quantidade suficiente de chips, poderá superar um sistema NVIDIA menor e mais eficiente. Esses são três grandes 'se', e o terceiro — quantidade suficiente de chips — é exatamente onde a história se torna difícil.

openPangu: o lado dos modelos

Uma plataforma de chips é tão útil quanto o software executado nela, e a Huawei também tem estado bastante ativa nesse front. Em sua conferência para desenvolvedores (HDC), realizada em junho de 2026, a Huawei lançou openPangu 2.0: um modelo Pro com 505 bilhões de parâmetros totais e 18 bilhões ativos, e um modelo Flash com 92 bilhões de parâmetros totais / 6 bilhões ativos, ambos suportando contexto de até 512 mil tokens. A Huawei afirma que o modelo Pro duplica aproximadamente o throughput por placa em comparação com outros modelos de código aberto líderes em hardware Ascend — mais uma vez, uma informação da fabricante sobre seu próprio silício, não um resultado validado por benchmarks independentes.

Isso se baseia no Pangu Pro MoE 72B de 2025, que introduziu um design Mixture of Grouped Experts (MoGE) especificamente concebido para equilibrar a carga entre os chips Ascend. O padrão é intencional: projetar conjuntamente a arquitetura do modelo e o hardware, de modo que as fraquezas do acelerador tenham menor impacto. Trata-se de uma filosofia distinta da abordagem densa-antes-de-esparsa adotada por modelos como DeepSeek, mas compartilha o mesmo objetivo — extrair comportamentos próximos ao estado da arte a partir de recursos computacionais limitados.

O que está funcionando

HBM doméstica produzida em volume — um marco real na cadeia de suprimentos
Um roadmap credível e datado, em vez de mera especulação
A abertura de código de CANN, Mind e Pangu para atrair desenvolvedores longe da CUDA
Projetos em escala sistêmica que contornam a lacuna por chip

O que está retendo o progresso

SMIC limitada a 7 nm; grandes dies apresentam baixo rendimento
O fornecimento de HBM é o verdadeiro limite para a quantidade de chips embarcados
O desempenho por chip fica atrás da NVIDIA em cerca de 5x no TPP (Total Processing Performance)
As versões de 2026 regrediram em relação ao próprio 910C de 2025 no TPP

A iniciativa de código aberto

O esforço no software é a parte mais provável de fazer a diferença a longo prazo. Na Huawei Connect, a empresa comprometeu-se a abrir integralmente sua pilha de software até 31 de dezembro de 2025: o CANN kit de ferramentas para computação heterogênea (sua resposta à CUDA), as ferramentas e ambiente de desenvolvimento da série Mind e os modelos-base openPangu . Eric Xu descreveu esse esforço como um projeto de longo prazo, com a Huawei se comprometendo a investir cerca de 15 bilhões de yuans (aproximadamente US$ 2,1 bilhões) por ano, durante cinco anos, no ecossistema e na computação aberta.

A lógica é sólida. A verdadeira vantagem competitiva da NVIDIA não está no silício, mas na CUDA e nas décadas de bibliotecas construídas sobre ela. Se a Huawei quiser que o Ascend seja mais do que uma plataforma cativa para hiperscalers chineses, precisa tornar a migração simples e dar aos desenvolvedores acesso ao código-fonte. Se isso será bem-sucedido é uma questão empírica que você poderá avaliar nos próximos meses observando sinais no GitHub — pull requests ativas, lançamentos regulares e kernels mantidos pela comunidade. As interfaces do compilador e o conjunto de instruções virtuais do CANN estão programados para serem abertos (juntamente com a total abertura de código do CANN); a prova virá com a adoção por terceiros fora dos próprios clientes da Huawei.

As restrições que a Huawei não destacou

Aqui está o cerne incômodo. Todos os números impressionantes listados acima esbarram na mesma barreira: a Huawei não consegue fabricar quantidades suficientes desses chips em um nó de processo competitivo.

A SMIC está presa em um processo de classe 7 nm porque as restrições às exportações impedem a entrada da litografia EUV na China, e o rendimento de grandes dies de IA nesse nó é fraco. Pior ainda, a HBM é o gargalo — mais limitante do que a própria produção dos dies. Segundo estimativa da SemiAnalysis, o fabricante chinês de memória CXMT conseguirá produzir apenas cerca de 2 milhões de pilhas de HBM no próximo ano, o suficiente para aproximadamente 250.000–300.000 chips da classe Ascend, mesmo que a SMIC pudesse fabricar dies para mais de um milhão de unidades. Sem essas pilhas, os aceleradores acabados não podem ser embarcados, não importa quantos dies de processamento a SMIC produza.

A matemática de desempenho decorre diretamente disso. Analistas do Council on Foreign Relations estimam que os melhores chips de IA norte-americanos são atualmente cerca de cinco vezes mais potentes que os melhores da Huawei em termos de desempenho total de processamento (TPP), com essa lacuna ampliando-se para aproximadamente dezessete vezes até o segundo semestre de 2027. Em termos de produção agregada, o cenário mais favorável à Huawei, segundo o CFR, ainda prevê que ela produzirá apenas cerca de 5% do poder computacional de IA total da NVIDIA em 2026, caindo para cerca de 2% em 2027 — e sua estimativa mediana é muito menor, em torno de 1%. O mais revelador: os Ascend 950PR e 950DT de 2026 têm, na verdade, desempenho inferior ao do Ascend 910C de 2025 — um sinal de quão difícil é a produção doméstica — e, segundo o próprio roadmap da Huawei, a primeira peça capaz de superar o H200 em desempenho ou largura de banda de memória será o Ascend 960, previsto para o quarto trimestre de 2027. Se você está escolhendo hardware para executar modelos localmente hoje, nosso guia das melhores GPUs para LLMs locais é um ponto de partida mais prático do que qualquer item deste roadmap.

Nada disso significa que o esforço seja mera encenação. Jensen Huang, da NVIDIA, já chamou a Huawei repetidamente de "formidável" — em maio de 2026, afirmou que a NVIDIA "largamente cedeu" o mercado avançado de chips de IA da China para a Huawei. A competição é real; o que a matemática da fabricação mostra é que o cronograma é o fator a observar, e cronogramas em nós tecnológicos restritos tendem a sofrer atrasos.

Perguntas frequentes

O Ascend 950 da Huawei é melhor que os chips Blackwell ou Rubin da NVIDIA?

Não, não por chip. Um único Ascend 950 alcança desempenho equivalente à geração Hopper — aproximadamente 1 PFLOPS em FP8 e 2 PFLOPS em FP4 — enquanto a VR200 Rubin da NVIDIA tem como meta cerca de 35 PFLOPS em FP4 para treinamento e 50 PFLOPS para inferência. O argumento da Huawei está no nível do sistema: conectar milhares de chips e superar um rack NVIDIA menor em termos de desempenho agregado.

Quando o Ascend 950DT será realmente disponibilizado?

Ele chegará à Huawei Cloud em agosto de 2026 como um serviço acessível via nuvem, com lançamento comercial completo (placas e servidores SuperPoD) previsto para o quarto trimestre de 2026. O 950PR começou a ser embarcado anteriormente, no primeiro trimestre de 2026.

O que é openPangu e como ele difere do Pangu Pro MoE 72B?

openPangu 2.0, lançado na HDC 2026, é a mais recente família de código aberto: um modelo Pro com 505 bilhões de parâmetros (18 bilhões ativos) e um modelo Flash com 92 bilhões de parâmetros (6 bilhões ativos), ambos com contexto de 512 mil tokens. O Pangu Pro MoE 72B de 2025 foi o modelo anterior que introduziu a arquitetura Mixture of Grouped Experts, otimizada especificamente para os chips Ascend.

A Huawei consegue fabricar quantidade suficiente de chips Ascend para fazer diferença?

Esse é o verdadeiro limite. Segundo estimativa da SemiAnalysis, o fornecimento de HBM limita a produção a aproximadamente 250.000–300.000 chips da classe Ascend por ano, e os rendimentos da SMIC em 7 nm são fracos. Mesmo o cenário mais favorável à Huawei, segundo o CFR, prevê que ela fornecerá apenas cerca de 5% do poder computacional de IA agregado da NVIDIA em 2026, com a estimativa mediana mais próxima de 1%.

O que são as memórias HiBL e HiZQ?

São memórias de alta largura de banda desenvolvidas internamente pela Huawei, criadas porque as restrições às exportações limitam o acesso às mais recentes soluções de HBM de terceiros. O 950PR utiliza 128 GB de HiBL 1.0 (~1,6 TB/s); o 950DT utiliza 144 GB de HiZQ 2.0 (~4,0 TB/s).

Por que a Huawei está abrindo o código do CANN e dos modelos Pangu?

Para quebrar o bloqueio de software da NVIDIA. A CUDA é a verdadeira vantagem competitiva da NVIDIA, portanto a Huawei está abrindo o código do CANN (sua alternativa à CUDA), da cadeia de ferramentas Mind e dos modelos Pangu, a fim de reduzir os custos de migração e construir um ecossistema de desenvolvedores em torno do Ascend.

O que exatamente significa "4 zettaflops até 2028"?

Trata-se de uma meta em nível de sistema para o Atlas 960 SuperCluster — um cluster com um milhão de placas — na precisão FP4, e não de um único chip. Os aceleradores Ascend individuais são medidos em petaflops, três ordens de grandeza inferiores.

Conclusão

Os anúncios da Huawei para 2026 são ao mesmo tempo sérios e restritos. A roadmap é real, a memória HBM desenvolvida internamente representa um marco genuíno, os modelos openPangu e a abertura do código-fonte do CANN são movimentos inteligentes para minar gradualmente a vantagem de software da NVIDIA, e a expansão em escala do SuperPoD é uma estratégia engenhosa para contornar as limitações do silício. Avalie tudo isso com seriedade.

Em seguida, leia a letra miúda. Por chip, o Ascend 950 é uma peça da era Hopper lançada em um ano da era Rubin, e até mesmo a própria roadmap da Huawei mostra que os chips de 2026 apresentam uma regressão no desempenho total em comparação com o 910C de 2025. A restrição fundamental não é a ambição ou o talento de projeto — é o teto de 7 nm e o fornecimento de HBM capaz de alimentar apenas algumas centenas de milhares de chips por ano. Para compradores chineses impedidos de adquirir produtos da NVIDIA, o Ascend é a melhor opção disponível e está melhorando; o próprio CEO da NVIDIA chama a Huawei de "formidável" e admite que a empresa praticamente cedeu esse mercado. Para todos os observadores da corrida global, o veredito honesto é que a Huawei chegou como uma concorrente real, mas os chips, os índices de produção (yields) e o cronograma ainda favorecem a NVIDIA — e continuarão assim até 2027, a menos que a situação de fabricação mude.