Monday, 22 June 2026 | Updating Daily AI insight, written for builders

Huawei Ascend 950 & Pangu: Chinas KI-Chip-Strategie für 2026

Huawei hat die vergangenen neun Monate damit verbracht, seine Pläne für KI-Silicon in einen konkreten Zeitplan umzusetzen. Auf der Huawei Connect im vergangenen September stellte das Unternehmen eine Roadmap mit vier Chips der Ascend-Reihe vor; auf der Huawei Cloud INSPIRE Creators Conference im Juni dieses Jahres legte es einen konkreten Termin für den wichtigsten Teil dieser Roadmap fest: Der Ascend 950DT – das Modell für Training und Decoding innerhalb der 950er-Familie – wird im August 2026 auf Huawei Cloud verfügbar sein, mit einem vollständigen kommerziellen Start im vierten Quartal 2026. Chen Lin, Vice President des Unternehmens, fasste den Zeitplan wie folgt zusammen: „Eine neue Generation pro Jahr, wobei sich die Rechenleistung jeweils verdoppelt.“

Das ist die zentrale Botschaft. Dieser Artikel untersucht, wie viel davon realistisch ist. Wir gehen die Chip-Roadmap und ihre tatsächlichen Spezifikationen durch, die auf Ascend trainierten openPangu-Modelle, die Open-Source-Initiative rund um CANN und die Mind-Toolchain zum Jahresende sowie die Einschränkungen, auf die niemand während der Keynote einging: eine 7-nm-Grenze bei SMIC, eine heimische HBM-Versorgung, die nicht mithalten kann, und eine Leistungslücke pro Chip gegenüber NVIDIA, die die Roadmap stillschweigend einräumt.

Wichtigste Erkenntnisse

  • Ein Chip pro Jahr, jeweils mit etwa doppelter Leistung des Vorgängers. Ascend 950PR (Q1 2026), 950DT (Cloud im August 2026, kommerzieller Start Q4 2026), 960 (Q4 2027), 970 (Q4 2028), mit dem Ziel, bis 2028 ein systemweites Rechenleistungsziel von 4 FP4-Zettaflops zu erreichen.
  • Der 950 ist ein Chip, der mit Hopper gleichzieht – kein Konkurrent für Blackwell. Pro Chip erreicht er etwa 1 PFLOPS FP8 / 2 PFLOPS FP4 bei 128–144 GB eigenem HBM von Huawei – solide, aber nur ein Bruchteil dessen, was eine einzelne NVIDIA-Rubin GPU leistet.
  • Huaweis wahre Waffe ist Skalierung. Der Atlas 950 SuperPoD verbindet 8.192 Chips und behauptet, NVIDIA NVL144 hinsichtlich Gesamtrechenleistung, Speicher und Bandbreite durch reine Skalierung zu übertreffen.
  • openPangu 2.0 wurde auf der HDC 2026 als Open-Source veröffentlicht. Ein Pro-Modell mit 505 Milliarden Parametern (18 Milliarden aktiv) und ein Flash-Modell mit 92 Milliarden Parametern (6 Milliarden aktiv), beide mit einem Kontextfenster von 512K; sieben Komponenten werden ab dem 30. Juni freigegeben.
  • Die ehrliche Einschränkung liegt in der Fertigung. SMIC ist bei 7 nm steckengeblieben, und die heimische HBM-Versorgung ist der Engpass; selbst im günstigsten Szenario eines Huawei-freundlichen Analysten erreicht sie 2026 lediglich etwa 5 % der gesamten KI-Rechenleistung von NVIDIA – und die mittlere Schätzung liegt deutlich darunter.
  • Selbst Huaweis eigene Roadmap zeigt für 2026 einen Rückschritt. Die 950PR/950DT weisen eine geringere Gesamtverarbeitungsleistung auf als der Ascend 910C aus dem Jahr 2025; laut Huaweis eigenem Zeitplan ist erst der 960 im vierten Quartal 2027 in der Lage, eine H200 zu übertreffen.

Die Roadmap: Eine neue Generation pro Jahr

Huaweis Darstellung folgt einem metronomartigen Rhythmus: vier Teile, jeweils ein Jahr auseinander, wobei jeder ungefähr die Leistung des Vorgängers verdoppelt:

  • Ascend 950PR — Q1 2026, für Prefill und Empfehlungssysteme
  • Ascend 950DT — Cloud-Verfügbarkeit im August 2026, kommerzieller Start im vierten Quartal 2026, für Decoding und Training
  • Ascend 960 — Q4 2027
  • Ascend 970 — Q4 2028

Die Suffixe „PR“ und „DT“ sind der interessante Teil. Statt einen universell einsetzbaren Beschleuniger auf den Markt zu bringen, hat Huawei die Inferenz in zwei Teile aufgeteilt. Der 950PR ist speziell für die Prefill-Phase – den rechenintensiven Durchlauf über Ihre Eingabe – sowie für Empfehlungssysteme optimiert. Der 950DT hingegen ist für Decoding (generierung von Token nach Token) und langfristiges Training ausgelegt, weshalb er über mehr Speicher verfügt. Falls Sie unseren Artikel „NPU vs. GPU“ gelesen haben, ist diese Idee Ihnen bereits bekannt – hier wird sie jedoch noch konsequenter umgesetzt: Die Hardware wird speziell auf die jeweilige Phase der Workload zugeschnitten. NPU-vs.-GPU-Erklärung– dies ist eine bekannte Idee, die hier weiter vorangetrieben wird: Spezialisierung der Hardware auf die jeweilige Phase der Workload.

Die Schlagzeilenzahl – etwa 4 FP4-Zettaflops bis 2028 – ist ein systemweites Ziel für den Atlas 960 SuperCluster, nicht für einen einzelnen Chip. Behalten Sie diesen Unterschied stets im Hinterkopf, sobald Sie eine Angabe in Zettaflops im Zusammenhang mit Huawei sehen: Diese beeindruckenden Zahlen beschreiben stets ein Gebäude voller Beschleuniger – niemals den einzelnen Beschleuniger.

Was der Ascend 950 tatsächlich ist

Hier sind die Spezifikationen pro Chip, die Huawei veröffentlicht hat. Es handelt sich um Herstellerangaben für Komponenten, die Mitte Juni 2026 erst teilweise ausgeliefert wurden; behandeln Sie diese daher als Zielvorgaben statt als getestete Benchmark-Ergebnisse.

SpezifikationenAscend 950PRAscend 950DT
VerfügbarkeitQ1 2026Cloud im August 2026, kommerzieller Start Q4 2026
RollePrefill / EmpfehlungDecodierung / Training
FP8-Berechnung~1 PFLOPS~1 PFLOPS
FP4-Berechnung~2 PFLOPS~2 PFLOPS
Arbeitsspeicher128 GB HiBL 1.0144 GB HiZQ 2.0
Speicherbandbreite~1,6 TB/s~4,0 TB/s
Interconnect2 TB/s2 TB/s

Das wirklich bemerkenswerte hier ist der Arbeitsspeicher. HiBL und HiZQ sind Huaweis eigene Hochbandbreitenspeicher – eine in China entwickelte HBM-Variante (High-Bandwidth Memory), die entstand, weil Exportbeschränkungen den einfachen Zugang zu den neuesten Speicherstapeln von SK Hynix, Micron und Samsung unterbanden. Dass ein chinesischer Anbieter überhaupt wettbewerbsfähigen On-Package-HBM liefert, ist ein echtes technisches Meisterstück; die 144 GB des 950DT mit einer Bandbreite von 4,0 TB/s liegen im üblichen Leistungsbereich moderner Trainings-ASICs. Huawei gibt zudem an, dass der 2-TB/s-Interconnect des 950DT etwa das 2,5-Fache dessen des Vorgängers 910C beträgt – wiederum eine Angabe des Herstellers.

Nun zur Realitätsprüfung: NVIDIAs Rubin VR200, der ebenfalls für die zweite Jahreshälfte 2026 angekündigt ist, zielt auf rund 35 PFLOPS FP4 für das Training und etwa 50 PFLOPS FP4 für Inferenz ab, bei 288 GB HBM4 mit einer Bandbreite von rund 22 TB/s. (Dies sind NVIDIAs eigene Klassifizierungen – Training versus Inferenz – und keine Unterscheidung zwischen dichten und spärlichen Berechnungen.) Auf Basis der reinen FP4-Leistung pro Chip ergibt sich damit eine Lücke von etwa dem 17- bis 25-Fachen gegenüber einem einzelnen Ascend-950-Chip mit ~2 PFLOPS, je nachdem, welcher Rubin-Wert zugrunde gelegt wird. Huaweis eigene Atlas-350-Karte auf Basis des 950PR verspricht 1,56 PFLOPS FP4 und „2,8-mal so viel wie der H20“ – doch selbst dieser Vergleich bezieht sich lediglich auf den abgespeckten, exportkonformen H20, nicht auf einen vollwertigen Blackwell- oder Rubin-Chip, und bleibt zudem eine Herstellerangabe ohne unabhängige Validierung. Die sachliche Kurzzusammenfassung, die auch von Analysten geteilt wird, lautet: Ein einzelner Ascend-950-Chip erreicht annähernd die Leistungsfähigkeit von NVIDIAs Hopper-Generation, nicht jedoch diejenige der Chips, die NVIDIA 2026 vermarktet. Für Kontext zum NVIDIA-Seitenvergleich siehe unseren Vera-Rubin-Überblick.

Skalierung als Strategie

Huawei weiß, dass es den direkten Chip-gegen-Chip-Wettbewerb nicht gewinnen kann – und versucht es daher gar nicht erst. Stattdessen setzt es auf Systemarchitektur. Der Atlas-950-SuperPoD verbindet 8.192 Ascend-950DT-Beschleuniger zu einer logischen Maschine: rund 8 EFLOPS FP8 und 16 EFLOPS FP4, 1.152 TB Arbeitsspeicher sowie etwa 16 PB/s Interconnect-Bandbreite über ein optisches Fabric. Stapelt man 64 solcher SuperPoDs zu einem Atlas-950-SuperCluster, erhält man mehr als 520.000 NPUs mit insgesamt etwa 524 EFLOPS FP8 und knapp 1 Zettaflops FP4. Der für 2027 angekündigte Atlas-960-SuperCluster strebt die Million-Karten-Marke an und die Leistungsangaben von 2 bzw. 4 Zettaflops (FP8/FP4).

Im Vergleich zum NVL144 von NVIDIA behauptet Huawei, der 950-SuperPoD biete etwa eine Größenordnung mehr Beschleuniger und rund das 6,7-Fache der Gesamtrechenleistung – zudem deutlich mehr Speicher (ca. das 15-Fache) und Interconnect-Bandbreite. Das kann zwar gleichzeitig wahr und irreführend sein: Hier wird ein 8.192-Chip-Pod mit einem 144-GPU-Rack verglichen. Die ehrliche Interpretation lautet: Hat man unbegrenzten Platz, günstigen Strom und genügend Chips zur Verfügung, lässt sich ein kleineres, effizienteres NVIDIA-System durch bloße Rechenkraft übertrumpfen. Das sind drei große Unbekannte – und die dritte davon, nämlich „genügend Chips“, ist genau der Punkt, an dem die Sache schwierig wird.

openPangu: Die Modellseite

Eine Chipplattform ist nur so nützlich wie die Software, die darauf läuft – und Huawei hat auch hier kräftig nachgelegt. Auf seiner Entwicklerkonferenz (HDC) im Juni 2026 stellte Huawei openPangu 2.0: ein Pro-Modell mit insgesamt 505 Mrd. Parametern und 18 Mrd. aktiven Parametern sowie ein Flash-Modell mit 92 Mrd. bzw. 6 Mrd. Parametern vor, beide mit Unterstützung für einen Kontext von 512 K Token. Huawei behauptet, das Pro-Modell verdopple die Durchsatzleistung pro Karte im Vergleich zu anderen führenden Open-Source-Modellen auf Ascend-Hardware – erneut eine Herstellerangabe auf eigener Hardware, nicht ein unabhängig validiertes Benchmark-Ergebnis.

Dies baut auf dem Pangu-Pro-MoE-72B aus dem Jahr 2025 auf, der eine Mixture-of-Grouped-Experts-(MoGE)-Architektur einführte, die speziell darauf ausgelegt ist, die Last gleichmäßig über Ascend-Chips zu verteilen. Das Muster ist bewusst gewählt: Modellarchitektur und Hardware werden gemeinsam entworfen, sodass Schwächen des Beschleunigers weniger ins Gewicht fallen. Dies stellt eine andere Philosophie dar als der „dicht-dann-sparse“-Ansatz hinter Modellen wie DeepSeek, verfolgt aber dasselbe Ziel – möglichst fortschrittliches Verhalten aus rechenbeschränkter Hardware herauszuholen.

Was funktioniert

  • Eigene HBM-Massenspeicherproduktion – ein echter Meilenstein in der Lieferkette
  • Ein glaubwürdiger, zeitlich konkretisierter Fahrplan statt bloßer Zukunftsmusik
  • Open-Source-Freigabe von CANN, Mind und Pangu, um Entwickler von CUDA wegzulocken
  • Systemskalierte Designs, die die Leistungslücke pro Chip umgehen

Was es behindert

  • SMIC auf 7 nm begrenzt; große Dies weisen bei diesem Knoten schlechte Ausbeute auf
  • Die HBM-Versorgung ist die eigentliche Obergrenze für ausgelieferte Chips
  • Die Leistung pro Chip liegt bei TPP (Total Processing Performance) um rund das Fünffache unter der von NVIDIA
  • Die Teile aus 2026 zeigen im Vergleich zum eigenen 910C aus 2025 sogar einen Rückgang bei TPP

Die Open-Source-Initiative

Der Softwarevorstoß ist der Teil, der langfristig am wahrscheinlichsten entscheidend sein wird. Auf der Huawei-Connect-Konferenz verpflichtete sich das Unternehmen, seinen gesamten Softwarestack bis zum 31. Dezember 2025 freizugeben: die CANN -Toolbox für heterogene Berechnungen (Huaweis Antwort auf CUDA), die Mind -Toolchains und Entwicklungsumgebung sowie die openPangu -Grundlagenmodelle. Eric Xu stellte dies als Langzeitprojekt dar und kündigte an, jährlich rund 15 Milliarden Yuan (ca. 2,1 Mrd. US-Dollar) über fünf Jahre hinweg in Ökosystem und offenes Computing zu investieren.

Die Logik ist schlüssig. NVIDIAs wirkliche Schutzmauer ist nicht die Siliziumtechnologie, sondern CUDA und die über ein Jahrzehnt gewachsenen Bibliotheken darauf. Wenn Huawei Ascend zu mehr als nur einer geschlossenen Plattform für chinesische Hyperscaler machen will, muss es den Portieraufwand minimieren und Entwicklern Zugriff auf den Quellcode gewähren. Ob dies gelingt, ist eine empirische Frage, die man in den kommenden Monaten anhand von GitHub-Signalen beantworten kann – etwa aktiven Pull Requests, regelmäßigen Releases und Community-gewarteten Kernels. Die Compiler-Schnittstellen und der virtuelle Befehlssatz von CANN sollen geöffnet werden (zusammen mit der vollständigen Open-Source-Freigabe von CANN); der Beweis wird die Adoption durch Drittanbieter außerhalb Huaweis eigener Kunden sein.

Die Einschränkungen, auf die Huawei nicht einging

Hier liegt der unbequeme Kern: Jede beeindruckende Zahl oben stößt auf dieselbe Barriere – Huawei kann nicht genügend dieser Chips auf einem wettbewerbsfähigen Fertigungsknoten produzieren.

SMIC ist auf einen 7-nm-Klasse-Prozess festgelegt, da Exportbeschränkungen die EUV-Lithographie aus China ausschließen, und die Ausbeute bei großen KI-Dies auf diesem Knoten ist gering. Noch schlimmer ist jedoch die HBM-Bottleneck-Situation – sie ist noch restriktiver als die Fertigung der Dies selbst. Nach Schätzungen von SemiAnalysis kann der chinesische Speicherhersteller CXMT im nächsten Jahr nur rund zwei Millionen HBM-Stapel produzieren, was für etwa 250.000 bis 300.000 Ascend-ähnliche Chips ausreicht – obwohl SMIC theoretisch Dies für weit über eine Million Chips fertigen könnte. Ohne HBM-Stapel können keine fertigen Beschleuniger ausgeliefert werden, egal wie viele Rechendies SMIC herstellt.

Die Leistungsrechnung folgt daraus zwangsläufig. Analysten des Council on Foreign Relations schätzen, dass die besten US-amerikanischen KI-Chips derzeit etwa fünfmal leistungsfähiger sind als Huaweis beste Chips bezogen auf die Gesamtverarbeitungsleistung (TPP); bis zur zweiten Jahreshälfte 2027 soll sich dieser Abstand auf rund das Siebzehnfache vergrößern. Bei der aggregierten Rechenleistung sieht das CFR-Szenario, das Huawei am günstigsten bewertet, für 2026 immerhin noch eine Produktion von rund 5 % der gesamten NVIDIA-KI-Rechenleistung vor – für 2027 sinkt dieser Wert auf etwa 2 %; die mittlere Schätzung liegt deutlich niedriger, bei rund 1 %. Am aufschlussreichsten: Die Ascend-950PR- und 950DT-Modelle aus 2026 weisen tatsächlich geringere TPP-Werte als der Ascend-910C aus 2025 – ein Indiz dafür, wie schwer die heimische Fertigung ist. Und laut Huaweis eigenem Fahrplan ist der erste Chip, der den H200 hinsichtlich Leistung oder Speicherbandbreite übertrifft, der Ascend-960, der erst im vierten Quartal 2027 erscheinen soll. Falls Sie heute Hardware für lokales Modelltraining wählen müssen, ist unser Leitfaden zu den besten GPUs für lokale LLMs ein praktikablerer Ausgangspunkt als irgendetwas aus diesem Fahrplan.

All dies bedeutet keineswegs, dass die Bemühungen bloße Show sind. NVIDIAs Jensen Huang bezeichnete Huawei wiederholt als „beeindruckend“ – im Mai 2026 sagte er sogar, NVIDIA habe den fortgeschrittenen chinesischen KI-Chipmarkt „weitgehend Huawei überlassen“. Der Wettbewerb ist real; die Fertigungsmathematik zeigt jedoch, dass vor allem der Zeitplan entscheidend ist – und Zeitpläne auf limitierten Fertigungsknoten verschieben sich regelmäßig.

Häufig gestellte Fragen (FAQ)

Ist der Huawei-Ascend-950 besser als NVIDIAs Blackwell oder Rubin?

Nein, nicht pro Chip. Ein einzelner Ascend-950 erreicht etwa Hopper-Klasse-Leistung – rund 1 PFLOPS FP8 und 2 PFLOPS FP4 – während NVIDIAs Rubin VR200 für das Training etwa 35 PFLOPS FP4 und für Inferenz 50 PFLOPS FP4 anstrebt. Huaweis Argument richtet sich auf Systemebene: Verbindet man Tausende Chips miteinander, lässt sich ein kleineres NVIDIA-Rack bei der Gesamtleistung schlagen.

Wann wird der Ascend-950DT tatsächlich ausgeliefert?

Er wird ab August 2026 über Huawei Cloud als cloudbasierter Dienst verfügbar sein; der vollständige kommerzielle Start (Karten und SuperPoD-Server) ist für das vierte Quartal 2026 geplant. Der 950PR begann bereits früher, im ersten Quartal 2026, ausgeliefert zu werden.

Was ist openPangu und wie unterscheidet es sich vom Pangu-Pro-MoE-72B?

openPangu 2.0, auf der HDC 2026 vorgestellt, ist die jüngste Open-Source-Modellfamilie: ein Pro-Modell mit 505 Mrd. Parametern (18 Mrd. aktiv) und ein Flash-Modell mit 92 Mrd. (6 Mrd. aktiv), beide mit 512K-Token-Kontext. Der Pangu-Pro-MoE-72B aus dem Jahr 2025 war das frühere Modell, das die für Ascend optimierte Mixture-of-Grouped-Experts-Architektur einführte.

Kann Huawei genügend Ascend-Chips produzieren, um relevant zu sein?

Genau das ist die eigentliche Grenze. Nach Schätzungen von SemiAnalysis begrenzt das HBM-Angebot die jährliche Produktionskapazität auf rund 250.000 bis 300.000 Ascend-ähnliche Chips, und SMICs Ausbeute bei 7 nm ist schwach. Selbst das günstigste CFR-Szenario sieht für 2026 nur etwa 5 % der gesamten NVIDIA-KI-Rechenleistung vor, während die mittlere Schätzung bei rund 1 % liegt.

Was sind HiBL- und HiZQ-Speicher?

Sie sind Huaweis eigene Hochbandbreitenspeicher, die entwickelt wurden, weil Exportbeschränkungen den Zugang zu den neuesten HBM-Modulen von Drittanbietern einschränken. Der 950PR nutzt 128 GB HiBL 1.0 (~1,6 TB/s); der 950DT verwendet 144 GB HiZQ 2.0 (~4,0 TB/s).

Warum open-source-t Huawei CANN und die Pangu-Modelle?

Um NVIDIAs Software-Abhängigkeit zu brechen. CUDA ist NVIDIAs eigentliche Schutzmauer, daher öffnet Huawei CANN (seine CUDA-Alternative), die Mind-Toolchain und die Pangu-Modelle, um den Portieraufwand zu senken und ein Entwickler-Ökosystem rund um Ascend aufzubauen.

Was bedeutet die Aussage „4 Zettaflops bis 2028“ eigentlich?

Es handelt sich um ein systemweites Ziel für den Atlas-960-SuperCluster – einen Cluster mit einer Million Beschleunigerkarten – bei FP4-Präzision, nicht um eine einzelne Chip-Leistung. Einzelne Ascend-Beschleuniger werden in Petaflops gemessen, also drei Größenordnungen niedriger.

Fazit

Huaweis Ankündigungen für 2026 sind gleichermaßen ernst zu nehmen und zugleich durch klare Grenzen eingeschränkt. Die Roadmap ist real, der eigenentwickelte HBM-Speicher stellt einen echten Meilenstein dar, die offenen Pangu-Modelle sowie die Open-Source-Veröffentlichung von CANN sind kluge Schritte, um NVIDIAs Software-Moat Stück für Stück zu untergraben, und die Skalierung des SuperPoD ist eine raffinierte Strategie, um Schwächen der Halbleiterhardware zu umgehen. All dies sollte man zunächst unvoreingenommen zur Kenntnis nehmen.

Dann liest man jedoch die Kleingedruckten. Pro Chip stellt der Ascend-950 eine Komponente der Hopper-Ära dar, die allerdings in einem Jahr der Rubin-Ära erscheint; selbst Huaweis eigene Roadmap zeigt zudem, dass die Chips für 2026 im Vergleich zum Ascend-910C aus dem Jahr 2025 insgesamt an Leistung verlieren. Die entscheidende Einschränkung liegt weder im mangelnden Ehrgeiz noch in fehlendem Design-Talent – vielmehr ist es die 7-nm-Fertigungsgrenze sowie ein HBM-Angebot, das jährlich nur einige hunderttausend Chips versorgen kann. Für chinesische Kunden, die vom Bezug von NVIDIA-Produkten ausgeschlossen sind, stellt Ascend derzeit die beste verfügbare Option dar – und diese wird kontinuierlich besser; sogar NVIDIAs CEO bezeichnet Huawei als „beeindruckend stark“ und räumt ein, dass sein Unternehmen diesen Markt weitgehend aufgegeben hat. Für alle, die den globalen Wettlauf verfolgen, lautet das ehrliche Fazit: Huawei ist endgültig als ernstzunehmender Konkurrent angekommen – doch die Chips selbst, die Ausbeute (Yields) und der Zeitplan begünstigen nach wie vor NVIDIA; dies wird sich voraussichtlich bis mindestens 2027 nicht ändern, es sei denn, die Fertigungssituation verbessert sich spürbar.

Scroll to Top