Is the Huawei Ascend 950 better than NVIDIA's Blackwell or Rubin?

No, not per chip. A single Ascend 950 lands around Hopper-class performance — roughly 1 PFLOPS FP8 and 2 PFLOPS FP4 — while NVIDIA's Rubin VR200 targets about 35 PFLOPS of FP4 for training and 50 PFLOPS for inference. Huawei's argument is at the system level: wire thousands of chips together and beat a smaller NVIDIA rack on aggregate.

When does the Ascend 950DT actually ship?

It reaches Huawei Cloud in August 2026 as a cloud-accessible service, with a full commercial launch (cards and SuperPoD servers) slated for Q4 2026. The 950PR began shipping earlier, in Q1 2026.

What is openPangu and how is it different from Pangu Pro MoE 72B?

openPangu 2.0, released at HDC 2026, is the latest open-source family: a 505B-parameter Pro model (18B active) and a 92B Flash model (6B active), both with 512K context. The 2025 Pangu Pro MoE 72B was the earlier model that introduced the Mixture of Grouped Experts architecture tuned for Ascend.

Can Huawei make enough Ascend chips to matter?

That is the real limit. By SemiAnalysis's estimate, HBM supply caps output at roughly 250,000–300,000 Ascend-class chips a year, and SMIC's 7nm yields are weak. Even the most Huawei-favorable CFR scenario has it fielding only about 5% of NVIDIA's aggregate AI compute in 2026, with the median estimate closer to 1%.

What are HiBL and HiZQ memory?

They are Huawei's homegrown high-bandwidth memory, developed because export controls restrict access to the latest third-party HBM. The 950PR uses 128 GB of HiBL 1.0 (~1.6 TB/s); the 950DT uses 144 GB of HiZQ 2.0 (~4.0 TB/s).

Why is Huawei open-sourcing CANN and the Pangu models?

To break NVIDIA's software lock-in. CUDA is NVIDIA's real moat, so Huawei is opening CANN (its CUDA equivalent), the Mind toolchain, and the Pangu models to lower the cost of porting and build a developer ecosystem around Ascend.

What does "4 zettaflops by 2028" actually refer to?

It is a system-level target for the Atlas 960 SuperCluster — a million-card cluster — at FP4 precision, not a single chip. Individual Ascend accelerators are measured in petaflops, three orders of magnitude lower.

Huawei Ascend 950 e Pangu: la strategia cinese per i chip AI nel 2026

Negli ultimi nove mesi Huawei ha trasformato i propri piani per i chip IA in un calendario preciso. A settembre scorso, durante Huawei Connect, ha pubblicato una roadmap che prevede quattro chip Ascend; a giugno di quest'anno, alla conferenza Huawei Cloud INSPIRE Creators, ha fissato una data concreta per la parte più importante di tale roadmap. L'Ascend 950DT, membro della famiglia 950 dedicato all'addestramento e alla decodifica, sarà disponibile su Huawei Cloud ad agosto 2026, con lancio commerciale completo nel quarto trimestre 2026. Il vicepresidente dell'azienda Chen Lin ha riassunto questa cadenza come «una generazione all'anno, con raddoppio della potenza di calcolo».

Questa è la proposta. Questo articolo analizza quanto di essa sia effettivamente realizzabile. Esamineremo la roadmap dei chip e le loro specifiche effettive, i modelli openPangu addestrati su Ascend, l'impulso verso l'open source previsto per fine anno riguardo a CANN e allo stack di strumenti Mind, nonché i vincoli sui quali nessuno degli oratori alla keynote si è soffermato: un tetto tecnologico a 7 nm presso SMIC, una fornitura interna di HBM incapace di tenere il passo e un divario prestazionale per singolo chip rispetto a NVIDIA che la roadmap ammette tacitamente.

Punti chiave

Un chip all'anno, ciascuno circa il doppio del precedente. Ascend 950PR (primo trimestre 2026), 950DT (disponibile sul cloud ad agosto 2026, lancio commerciale nel quarto trimestre 2026), 960 (quarto trimestre 2027), 970 (quarto trimestre 2028), con obiettivo finale di raggiungere un sistema da 4 zettaflops in FP4 entro il 2028.
Il 950 è un chip paragonabile a Hopper, non un concorrente diretto di Blackwell. Per singolo chip offre circa 1 PFLOPS in FP8 / 2 PFLOPS in FP4, con 128–144 GB di HBM sviluppata internamente da Huawei — prestazioni solide, ma solo una frazione di quelle di una singola GPU NVIDIA Rubin .
L'arma reale di Huawei è la scala. L'Atlas 950 SuperPoD collega insieme 8.192 chip e dichiara di superare, in termini di potenza di calcolo aggregata, memoria e larghezza di banda, l'NVL144 di NVIDIA grazie alla forza bruta.
openPangu 2.0 è stato reso open source durante l'HDC 2026. Un modello Pro da 505 miliardi di parametri (18 miliardi attivi) e un modello Flash da 92 miliardi di parametri (6 miliardi attivi), entrambi con contesto da 512K token, con sette componenti resi disponibili a partire dal 30 giugno.
Il vincolo onesto è quello produttivo. SMIC è bloccata a 7 nm e l'HBM sviluppata internamente rappresenta il collo di bottiglia; anche nello scenario più favorevole per Huawei, secondo gli analisti, la capacità complessiva di calcolo AI raggiungerà nel 2026 solo circa il 5% di quella di NVIDIA, mentre la stima mediana è molto più bassa.
Persino la roadmap ufficiale di Huawei mostra un regresso nel 2026. L'Ascend 950PR/950DT presenta prestazioni di elaborazione totali inferiori rispetto all'Ascend 910C del 2025; secondo i piani stessi di Huawei, il primo chip in grado di superare l'H200 sarà il 960, previsto per il quarto trimestre 2027.

La roadmap: una generazione all'anno

La narrazione di Huawei è metronomica: quattro parti, una per anno, ciascuna approssimativamente il doppio della precedente:

Ascend 950PR — primo trimestre 2026, prefill e sistemi di raccomandazione
Ascend 950DT — disponibilità sul cloud ad agosto 2026, lancio commerciale nel quarto trimestre 2026, decodifica e addestramento
Ascend 960 — quarto trimestre 2027
Ascend 970 — quarto trimestre 2028

I suffissi «PR» e «DT» sono la parte interessante. Invece di lanciare un acceleratore generico, Huawei ha suddiviso l'inferenza in due parti. Il 950PR è ottimizzato per la fase di prefill — la fase computazionalmente intensiva di elaborazione del prompt — e per i sistemi di raccomandazione. Il 950DT gestisce invece la decodifica (generazione token per token) e l'addestramento continuativo, motivo per cui dispone di una memoria più capiente. Se avete letto la nostra spiegazione su NPU vs GPU, questo concetto vi sarà familiare: si tratta di un'idea già nota, portata a un livello superiore attraverso una specializzazione ancora maggiore del silicio in base alla fase del carico di lavoro.

Il dato principale — circa 4 zettaflops in FP4 entro il 2028 — è un obiettivo a livello di sistema per l'Atlas 960 SuperCluster, non per un singolo chip. Tenete sempre presente questa distinzione ogni volta che vedete citati valori in zettaflops relativi a Huawei: tali cifre impressionanti descrivono sempre un intero edificio pieno di acceleratori, non un singolo acceleratore.

Che cos'è realmente l'Ascend 950

Ecco le specifiche per singolo chip divulgate da Huawei. Si tratta di dati forniti dal produttore per componenti che, a metà giugno 2026, sono stati solo parzialmente immessi sul mercato; trattateli quindi come obiettivi piuttosto che risultati verificati da benchmark.

Specifiche	Ascend 950PR	Ascend 950DT
Disponibilità	Primo trimestre 2026	Cloud ad agosto 2026, lancio commerciale nel quarto trimestre 2026
Ruolo	Prefill / sistemi di raccomandazione	Decodifica / addestramento
Calcolo FP8	~1 PFLOPS	~1 PFLOPS
Calcolo FP4	~2 PFLOPS	~2 PFLOPS
Memoria	128 GB HiBL 1.0	144 GB HiZQ 2.0
Larghezza di banda della memoria	~1,6 TB/s	~4,0 TB/s
Interconnessione	2 TB/s	2 TB/s

L’aspetto davvero notevole in questo caso è la memoria. HiBL e HiZQ sono memorie ad alta larghezza di banda sviluppate internamente da Huawei — una HBM «fatta in casa», progettata perché le restrizioni all’esportazione hanno impedito l’accesso agevole agli ultimi stack prodotti da SK Hynix, Micron e Samsung. Il fatto che un fornitore cinese riesca a commercializzare una HBM competitiva integrata sul package rappresenta un vero risultato ingegneristico, e i 144 GB della 950DT con una larghezza di banda di 4,0 TB/s rientrano pienamente nella fascia di prestazioni attesa per una moderna unità dedicata all’addestramento. Huawei afferma inoltre che l’interconnessione da 2 TB/s della 950DT è circa 2,5 volte più veloce di quella del suo predecessore 910C — anche questa, tuttavia, è una stima fornita dal produttore.

Ora passiamo alla realtà. La NVIDIA Rubin VR200, anch’essa prevista per il secondo semestre del 2026, punta a circa 35 PFLOPS di calcolo FP4 per l’addestramento e a circa 50 PFLOPS di FP4 per l’inferenza, con 288 GB di HBM4 e una larghezza di banda di circa 22 TB/s. (Queste etichette — «addestramento» contro «inferenza» — sono quelle utilizzate direttamente da NVIDIA, non indicano una distinzione tra modalità densa e sparsa.) In termini di potenza di calcolo FP4 per singolo chip, ciò comporta un divario di circa 17×–25× rispetto ai ~2 PFLOPS di un singolo Ascend 950, a seconda del valore di riferimento scelto per la Rubin. La scheda Atlas 350 di Huawei, basata sull’Ascend 950PR, dichiara invece 1,56 PFLOPS di FP4 e «2,8× l’H20» — ma anche in questo caso si tratta di un confronto con l’H20 ridotta, conforme alle restrizioni all’esportazione, e non con una GPU Blackwell o Rubin completa; inoltre, si tratta ancora una volta di un’affermazione del produttore, in attesa di verifiche indipendenti. Una sintesi equilibrata, ripresa anche dagli analisti specializzati nel settore dei semiconduttori, è che un singolo Ascend 950 raggiunge approssimativamente le prestazioni della generazione Hopper di NVIDIA, non quelle delle soluzioni che NVIDIA commercializzerà nel 2026. Per un contesto aggiuntivo sul fronte NVIDIA, consultare la nostra analisi della Rubin Vera.

La scala come strategia

Huawei sa bene di non poter vincere una gara chip contro chip, e quindi non ci prova nemmeno. La sua scommessa è sull’architettura di sistema. Il SuperPoD Atlas 950 integra 8.192 acceleratori Ascend 950DT in un’unica macchina logica: circa 8 EFLOPS di calcolo FP8 e 16 EFLOPS di FP4, 1.152 TB di memoria e una larghezza di banda complessiva di interconnessione di circa 16 PB/s su una rete ottica. Accoppiando 64 di questi SuperPoD in un Atlas 950 SuperCluster si ottengono oltre 520.000 NPU che erogano circa 524 EFLOPS di FP8 e quasi 1 zettaflops di FP4. Il SuperCluster Atlas 960, previsto per il 2027, punta al milione di chip e ai livelli di 2/4 zettaflops (rispettivamente FP8/FP4).

Confrontato con l’NVL144 di NVIDIA, Huawei sostiene che il 950 SuperPoD integri circa un ordine di grandezza in più di acceleratori e offra circa 6,7× la potenza computazionale aggregata, con una quantità di memoria molto superiore (circa 15×) e una larghezza di banda di interconnessione maggiore. Questo può essere contemporaneamente vero e fuorviante: si sta infatti paragonando un pod da 8.192 chip a un rack da 144 GPU. L’interpretazione onesta è che, se si dispone di spazio illimitato, energia a basso costo e di un numero sufficiente di chip, è possibile sovraperformare un sistema NVIDIA più compatto ed efficiente. Si tratta però di tre condizioni molto impegnative, e la terza — «un numero sufficiente di chip» — è esattamente il punto in cui la situazione diventa critica.

openPangu: il lato modelli

Una piattaforma hardware è tanto utile quanto lo è il software che vi gira sopra, e Huawei ha lavorato intensamente anche su questo fronte. Alla sua conferenza per gli sviluppatori (HDC), tenutasi a giugno 2026, Huawei ha rilasciato openPangu 2.0: un modello Pro con 505 miliardi di parametri totali e 18 miliardi attivi, e un modello Flash con 92 miliardi di parametri totali e 6 miliardi attivi, entrambi supportanti un contesto di 512K token. Huawei afferma che il modello Pro raddoppia approssimativamente il throughput su singola scheda rispetto ad altri modelli open source di primo piano su hardware Ascend — anche qui, tuttavia, si tratta di un dato fornito dal produttore, relativo esclusivamente al proprio silicio e non ancora verificato da benchmark indipendenti.

Questo sviluppo si basa sul Pangu Pro MoE 72B del 2025, che aveva introdotto una progettazione «Mixture of Grouped Experts» (MoGE) specificamente concepita per bilanciare il carico di lavoro tra i vari chip Ascend. Il pattern è intenzionale: co-progettare l’architettura del modello insieme all’hardware, in modo da ridurre l’impatto dei punti deboli dell’acceleratore. Si tratta di una filosofia diversa dall’approccio «denso-poi-sparsa» alla base di modelli come DeepSeek, ma condivide lo stesso obiettivo: ottenere prestazioni prossime allo stato dell’arte pur operando con risorse computazionali limitate.

Ciò che funziona

HBM prodotta internamente in volumi significativi — un vero traguardo strategico per la catena di approvvigionamento
Una roadmap credibile e datata, non semplice «vaporware»
L’apertura al pubblico di CANN, Mind e Pangu per attrarre sviluppatori lontano da CUDA
Progetti architetturali su scala di sistema che aggirano il divario prestazionale per chip

Ciò che ne rallenta l’adozione

SMIC bloccata a 7 nm; rendimenti scadenti sui die di grandi dimensioni
La disponibilità di HBM rappresenta il vero limite alla produzione di chip
Le prestazioni per chip sono circa 5× inferiori a quelle di NVIDIA in termini di TPP (Total Processing Performance)
I componenti 2026 registrano un regresso rispetto al 910C del 2025 in termini di TPP

L'iniziativa open source

L’impegno sul fronte software è probabilmente quello destinato a fare la differenza sul lungo periodo. Durante Huawei Connect, l’azienda ha annunciato l’apertura completa del proprio stack entro il 31 dicembre 2025: il toolkit eterogeneo per il calcolo CANN (la risposta di Huawei a CUDA), l’ambiente di sviluppo e le toolchain della serie Mind e i modelli fondativi openPangu . Eric Xu ha descritto l’iniziativa come un progetto a lungo termine, con un impegno finanziario annuo di circa 15 miliardi di yuan (circa 2,1 miliardi di dollari USA) per cinque anni, destinato a costruire un ecosistema e un’infrastruttura di calcolo aperto.

La logica è solida. Il vero vantaggio competitivo di NVIDIA non risiede nel silicio, bensì in CUDA e nelle decine di librerie costruite negli anni su di esso. Se Huawei vuole che Ascend diventi qualcosa di più di una piattaforma chiusa riservata agli iper-scaler cinesi, deve rendere il processo di migrazione semplice e garantire agli sviluppatori l’accesso al codice sorgente. Se tale obiettivo sarà raggiunto è una domanda empirica, cui si potrà rispondere nei prossimi mesi osservando i segnali su GitHub — PR attive, rilasci regolari, kernel mantenuti dalla comunità. Le interfacce del compilatore CANN e il suo set di istruzioni virtuali sono programmati per essere resi pubblici (insieme all’intero CANN, completamente open source); la vera prova sarà l’adozione da parte di terzi al di fuori dei clienti diretti di Huawei.

I vincoli sui quali Huawei non si è soffermata

Ecco il nodo critico, scomodo. Ogni impressionante cifra riportata sopra si scontra con lo stesso ostacolo: Huawei non riesce a produrre un numero sufficiente di questi chip su un nodo tecnologico competitivo.

SMIC è bloccata su un processo di tipo 7 nm perché le restrizioni all’esportazione impediscono l’accesso alla litografia EUV in Cina, e i rendimenti sui grandi die AI a tale nodo sono scadenti. Ancora peggio, l’HBM è il collo di bottiglia — più limitante della stessa produzione dei die. Secondo le stime di SemiAnalysis, il produttore cinese di memorie CXMT riuscirà a produrre solo circa 2 milioni di stack HBM il prossimo anno, sufficienti per circa 250.000–300.000 chip di classe Ascend, benché SMIC potrebbe produrre die per oltre un milione di unità. Senza stack HBM, gli acceleratori finiti non possono essere spediti, indipendentemente dal numero di die prodotti da SMIC.

La matematica delle prestazioni ne deriva direttamente. Gli analisti del Council on Foreign Relations stimano che, attualmente, i migliori chip AI statunitensi siano circa cinque volte più potenti di quelli di Huawei in termini di TPP, con un divario destinato ad ampliarsi fino a circa diciassette volte entro il secondo semestre del 2027. In termini di output aggregato, nello scenario più favorevole a Huawei elaborato dal CFR, quest’ultima produrrà nel 2026 solo circa il 5% del totale del calcolo AI di NVIDIA, scendendo al 2% nel 2027 — mentre la stima mediana è ben più bassa, intorno all’1%. Il dato più significativo: sia l’Ascend 950PR che il 950DT del 2026 presentano effettivamente un TPP inferiore rispetto all’Ascend 910C del 2025 — un chiaro segnale della difficoltà della produzione domestica — e, secondo la roadmap stessa di Huawei, il primo chip in grado di superare l’H200 sia in termini di prestazioni che di larghezza di banda della memoria sarà l’Ascend 960, previsto per il quarto trimestre del 2027. Se state scegliendo oggi un’hardware per eseguire modelli localmente, la nostra guida alle migliori GPU per LLM locali è un punto di partenza più pratico rispetto a qualsiasi elemento di questa roadmap.

Nulla di tutto ciò significa che l’intero sforzo sia una messinscena. Jensen Huang di NVIDIA ha definito Huawei «formidabile» in più occasioni — nel maggio 2026 ha addirittura affermato che NVIDIA ha «largamente ceduto» il mercato cinese dei chip AI avanzati proprio a Huawei. La competizione è reale; ciò che la matematica produttiva mostra è che il fattore decisivo è il cronoprogramma, e i cronoprogrammi sui nodi tecnologici vincolati tendono a slittare.

Domande frequenti

L’Ascend 950 di Huawei è migliore dei chip Blackwell o Rubin di NVIDIA?

No, non a livello di singolo chip. Un singolo Ascend 950 offre prestazioni simili a quelle della generazione Hopper — circa 1 PFLOPS di FP8 e 2 PFLOPS di FP4 — mentre la Rubin VR200 di NVIDIA punta a circa 35 PFLOPS di FP4 per l’addestramento e 50 PFLOPS per l’inferenza. L’argomentazione di Huawei è invece di livello sistemico: collegando migliaia di chip, è possibile battere un rack NVIDIA più piccolo in termini di prestazioni aggregate.

Quando verrà effettivamente immesso sul mercato l’Ascend 950DT?

Sarà disponibile su Huawei Cloud a partire da agosto 2026 come servizio accessibile in cloud, con il lancio commerciale completo (schede e server SuperPoD) previsto per il quarto trimestre 2026. L’Ascend 950PR ha invece già iniziato le spedizioni nel primo trimestre 2026.

Che cos’è openPangu e in che cosa differisce dal Pangu Pro MoE 72B?

openPangu 2.0, rilasciato all’HDC 2026, è la più recente famiglia open source: un modello Pro da 505 miliardi di parametri (18 miliardi attivi) e un modello Flash da 92 miliardi di parametri (6 miliardi attivi), entrambi con contesto da 512K token. Il Pangu Pro MoE 72B del 2025 era invece il modello precedente, che aveva introdotto l’architettura «Mixture of Grouped Experts» ottimizzata per i chip Ascend.

Huawei riesce a produrre un numero sufficiente di chip Ascend per avere un impatto reale?

Questo è il vero limite. Secondo le stime di SemiAnalysis, la disponibilità di HBM limita la produzione annua a circa 250.000–300.000 chip di classe Ascend, e i rendimenti di SMIC a 7 nm sono scadenti. Anche nello scenario più favorevole elaborato dal CFR, Huawei riuscirebbe a fornire nel 2026 solo circa il 5% del totale del calcolo AI di NVIDIA, con una stima mediana più vicina all’1%.

Che cosa sono le memorie HiBL e HiZQ?

Sono memorie ad alta larghezza di banda sviluppate internamente da Huawei, create perché le restrizioni all’esportazione limitano l’accesso agli ultimi stack HBM di terze parti. L’Ascend 950PR utilizza 128 GB di HiBL 1.0 (~1,6 TB/s); l’Ascend 950DT utilizza 144 GB di HiZQ 2.0 (~4,0 TB/s).

Perché Huawei sta aprendo al pubblico CANN e i modelli Pangu?

Per rompere il lock-in software di NVIDIA. CUDA è il vero vantaggio competitivo di NVIDIA, quindi Huawei sta aprendo CANN (la sua controparte di CUDA), la toolchain Mind e i modelli Pangu per ridurre i costi di migrazione e costruire un ecosistema di sviluppatori intorno alla piattaforma Ascend.

A cosa si riferisce esattamente l’obiettivo di «4 zettaflop entro il 2028»?

Si tratta di un obiettivo a livello di sistema per il supercluster Atlas 960 — un cluster da un milione di schede — in precisione FP4, non di un singolo chip. Gli acceleratori Ascend individuali sono misurati in petaflop, tre ordini di grandezza inferiori.

Conclusione

Gli annunci di Huawei per il 2026 sono al tempo stesso seri e fortemente vincolati. La roadmap è reale, la memoria HBM sviluppata internamente rappresenta un vero traguardo, i modelli openPangu e l’apertura del codice sorgente di CANN sono mosse intelligenti per erodere gradualmente la barriera software di NVIDIA, mentre la scalabilità su larga scala del SuperPoD è un approccio astuto per aggirare le limitazioni del silicio. Tutti questi elementi vanno presi per buoni.

Poi bisogna leggere le clausole contrattuali. A livello di singolo chip, l’Ascend 950 è una soluzione della generazione Hopper lanciata in un anno della generazione Rubin, e persino la roadmap stessa di Huawei mostra un calo delle prestazioni complessive dei chip 2026 rispetto all’Ascend 910C del 2025. Il vincolo principale non è l’ambizione né la competenza progettuale, bensì il limite tecnologico dei 7 nm e una disponibilità di HBM sufficiente a produrre solo poche centinaia di migliaia di chip all’anno. Per gli acquirenti cinesi tagliati fuori da NVIDIA, Ascend è attualmente l’opzione migliore disponibile e sta progressivamente migliorando; lo stesso CEO di NVIDIA definisce Huawei «formidabile» e ammette che la società ha sostanzialmente rinunciato a quel mercato. Per chi osserva la corsa globale, il verdetto onesto è che Huawei è effettivamente arrivata come concorrente reale, ma i chip, i tassi di resa e il calendario continuano ancora a favorire NVIDIA — e lo faranno fino al 2027, a meno che non cambi radicalmente la situazione produttiva.