Diesen Frühling veröffentlichten Chinas zwei meistbeobachtete KI-Labore jeweils innerhalb von sechs Wochen ein neues Flaggschiffmodell. DeepSeek DeepSeek stellte am 24. April V4 vor – mit 1,6 Billionen Parametern, MIT-Lizenz und Gewichten, die noch am selben Tag auf Hugging Face verfügbar waren. Alibaba antwortete am 20. Mai mit Qwen3.7 Max, einem geschlossenen, auf Schlussfolgerung ausgerichteten Modell mit einem Kontextfenster von einer Million Tokens und einem Preis, der dessen Ehrgeiz widerspiegelt.
Auf dem Papier wirken sie wie Konkurrenten. In der Praxis richten sie sich jedoch an unterschiedliche Zielgruppen: Das eine ist das günstigste ernstzunehmende Spitzenmodell, das Sie selbst betreiben können; das andere ist eine polierte, schnellere API, die Sie pro Token mieten. Dieser Artikel analysiert, bei welchen Aspekten jedes Modell tatsächlich überlegen ist – Programmierung, Schlussfolgerungsfähigkeit, Kontextverarbeitung, Geschwindigkeit und dem entscheidenden Faktor, der die meisten Diskussionen beendet: den Kosten pro Million Tokens.
Wichtigste Erkenntnisse
- Bei Programmierung nahezu gleichauf. Die von den Anbietern gemeldeten SWE-bench-Verifizierungswerte liegen bei 80,6 % (DeepSeek V4-Pro) gegenüber 80,4 % (Qwen3.7 Max) – ein Unterschied, der sich auf Rundungsfehler zurückführen lässt.
- Qwen liegt bei der reinen Intelligenz knapp vorn. Die unabhängige Artificial Analysis bewertet es mit 57 Punkten auf ihrem Intelligence Index, während DeepSeek V4-Pro 52 Punkte erhält.
- DeepSeek ist deutlich günstiger. V4-Pro kostet 0,435 $ / 0,87 $ pro Million Input-/Output-Tokens; Qwen3.7 Max kostet 2,50 $ / 7,50 $ – also rund das 6- bis 9-Fache.
- Die Entscheidung zwischen Open- und Closed-Source ist der eigentliche Knackpunkt. DeepSeek V4 wird mit offenen Gewichten ausgeliefert, die Sie selbst hosten können; Qwen3.7 Max ist ausschließlich als API verfügbar, und bis Juni 2026 gibt es keine Open-Source-Version.
- Beide geben ein Kontextfenster von 1 Mio. Tokens an – doch Qwen ist deutlich schneller mit ca. 193 Tokens/Sekunde gegenüber ca. 80 Tokens/Sekunde bei DeepSeek.
- Anbieter-Benchmarks sollten mit Vorsicht betrachtet werden. Mehrere Schlagzeilenzahlen stammen aus Selbstberichten und wurden bislang noch nicht unabhängig reproduziert.
- Die beiden Modelle im Überblick
- Programmierung: Gleichstand beim führenden Benchmark
- Schlussfolgerungsfähigkeit und allgemeine Intelligenz
- Kontext, Geschwindigkeit und die ‚Ausführlichkeitsgebühr‘
- Preis: Hier wird der Unterschied zur Schlucht
- Welches Modell sollten Sie tatsächlich einsetzen?
- Häufig gestellte Fragen (FAQ)
- Fazit
- Verwandte Artikel
Die beiden Modelle im Überblick
DeepSeek V4 wird tatsächlich in zwei Varianten ausgeliefert. V4-Pro ist die Hochleistungsvariante: insgesamt 1,6 Billionen Parameter mit 49 Milliarden aktiven Parametern pro Token, basierend auf einem sparsamen Mixture-of-Experts-(MoE)-Design. Daneben gibt es V4-Flash, ein 284-Milliarden-/13-Milliarden-Parameter-Modell für kostengünstigere Anwendungen mit höherem Durchsatz. Beide Versionen bieten das angekündigte Kontextfenster von 1 Mio. Tokens sowie eine ungewöhnlich große maximale Ausgabelänge von 384.000 Tokens und sind unter der liberalen MIT-Lizenz veröffentlicht, wobei die Gewichte auf Hugging Face verfügbar sind.
Qwen3.7 Max ist ein anderes Tier. Alibaba hat die genaue Parameteranzahl nicht offengelegt – unabhängige Beobachter schätzen sie auf etwa eine Billion insgesamt in einem sparsamen MoE-Design – und entscheidend ist, dass es geschlossene Gewichte und ausschließlich als API verfügbar ist. Bis Juni 2026 gibt es keine herunterladbare Version, was einen bemerkenswerten Bruch mit Qwens Open-Source-Heritage darstellt (die Qwen-3.6-Reihe bietet nach wie vor Open-Source-Modelle wie die dichte 27-Milliarden-Parameter-Variante). Qwen3.7 Max wird gezielt als Modell für Schlussfolgerung und Agenten-Anwendungen positioniert und setzt vor der Antwort auf erweiterte Chain-of-Thought-Verfahren.
Diese Einordnung ist entscheidend für das Folgende. Wenn Sie verstehen möchten, warum beide Labore so intensiv daran arbeiten, empfehlen wir unseren Erklärartikel zum Aufstieg von DeepSeek mit Hintergrundinformationen zur strategischen Einordnung.
| Spezifikationen | DeepSeek V4-Pro | Qwen3.7 Max |
|---|---|---|
| Veröffentlicht | 24. April 2026 | 20. Mai 2026 |
| Gewichte | Offen (MIT-Lizenz, auf Hugging Face) | Geschlossen / Nur als API verfügbar |
| Parameter | 1,6 Bio. insgesamt / 49 Mrd. aktiv (MoE) | Nicht offengelegt (~1 Bio. geschätzt, MoE) |
| Kontextfenster | 1.000.000 Tokens | 1.000.000 Tokens |
| Maximale Ausgabe | 384.000 Tokens | ~65.000 Tokens |
| Preis für Eingabetokens (pro Mio.) | $0.435 | $2.50 |
| Preis für Ausgabetokens (pro Mio.) | $0.87 | $7.50 |
| Ausgabegeschwindigkeit | ~80 Tokens/Sekunde | ~193 Tokens/Sekunde |
Programmierung: Gleichstand beim führenden Benchmark
Der Benchmark, den alle zuerst prüfen, ist SWE-bench Verified – die von Menschen gefilterte Sammlung realer GitHub-Probleme. Hier liegen beide Modelle praktisch gleichauf: Die beste Konfiguration von DeepSeek (manchmal als V4-Pro-Max bezeichnet) erzielt 80,6 %, während Qwen3.7 Max 80,4 % erreicht. Diese Differenz liegt im Bereich der Messunsicherheit.
Geht man eine Ebene tiefer, divergiert das Bild je nach Aufgabentyp. DeepSeek erzielt beeindruckende Werte bei Programmieraufgaben im Wettbewerbsstil – 93,5 Punkte bei LiveCodeBench und eine Codeforces-Bewertung von 3.206 – was stark auf algorithmisches Problemlösen abzielt. Qwens Stärken liegen hingegen eher bei agentischen, mehrstufigen Ingenieuraufgaben: Es erreicht 60,6 Punkte beim anspruchsvolleren SWE-bench Pro und 69,7 Punkte bei Terminal-Bench 2.0 – Benchmarks, die belohnen, wenn ein Modell ein Repository navigiert, Befehle ausführt und iterativ vorgeht, statt eine Funktion mit einem einzigen Versuch korrekt zu generieren.
Die praktische Schlussfolgerung lautet: Für autonome Agenten-Loops des Typs „korrigiere diesen Codebasen“ hat Qwen3.7 Max einen leichten Vorteil; für reine Codegenerierung und Wettbewerbsaufgaben ist DeepSeek zumindest ebenbürtig – und kostet nur einen Bruchteil. Keines der beiden Modelle ist jedoch der Preis-Leistungs-Champion für lokale Installationen mit Open-Weights – diese Krone gehört nach wie vor kleineren Modellen, die wir in unserem beste lokalen LLM für Programmierung Leitfaden.
Ein wichtiger Vorbehalt, der sich wiederholt: Die meisten dieser Zahlen stammen von den Anbietern selbst. Unabhängige Reproduktionen sind bis Juni 2026 noch rar, und die US-amerikanische CAISI-(NIST-)Bewertung von V4-Pro kam zu dem Schluss, dass dessen reale Leistungsfähigkeit insgesamt etwa acht Monate hinter den führenden US-Systemen zurückliegt. Lesen Sie die Marketing-Werte daher als theoretische Obergrenze – nicht als Garantie.
Schlussfolgerungsfähigkeit und allgemeine Intelligenz
Für einen direkten, neutralen Vergleich ist der nützlichste Referenzpunkt Artificial Analysis, das seinen eigenen zusammengesetzten Intelligence Index berechnet. Dort erreicht Qwen3.7 Max einen Wert von 57 (Platz unter den Top 10 von über 150 getesteten Modellen), während DeepSeek V4-Pro in seiner Max-Reasoning-Konfiguration 52 Punkte erzielt. Qwen liegt also vorne, doch beide befinden sich zweifelsfrei im Spitzenfeld.
Bei einzelnen Denkbenchmarks wechseln sich die Erfolge der Anbieter ab. Qwen3.7 Max erreicht 92,4 Punkte bei GPQA Diamond, einem wissenschaftlichen Benchmark auf Graduiertenniveau; DeepSeek V4-Pro meldet bei demselben Test rund 90 Punkte. Beide Labore verweisen auf nahezu perfekte Ergebnisse bei anspruchsvollen Mathematikwettbewerben wie HMMT und AIME 2026 – allerdings jeweils unter Einsatz von Tools und erweitertem Denken. Solche Werte sagen mehr über die zur Testzeit verfügbare Rechenleistung als über die grundlegende Fähigkeit aus.
Es gibt einen subtileren Unterschied im Verhalten: Qwen3.7 Max wurde so feinjustiert, dass es häufiger auf Fragen verzichtet, bei denen es sich unsicher ist. Dies führte laut eigener Angaben von Qwen zur niedrigsten Halluzinationsrate aller Spitzenmodelle (ca. 22,9 %), senkte aber zugleich die reine Recall-Genauigkeit bei reinen Wissensbenchmarks. Wenn Ihre Anwendung retrieval-augmented ist und Sie es bevorzugen, dass das Modell lieber „Ich weiß es nicht“ sagt, statt zu fabulieren, dann ist das ein echter Vorteil. Wenn Sie hingegen möchten, dass es immer eine Antwort versucht, ist dies eine Eigenheit, die Sie bei der Planung berücksichtigen müssen.
Kontext, Geschwindigkeit und die ‚Ausführlichkeitsgebühr‘
Beide Modelle werben mit einem Kontextfenster von einer Million Tokens und unterstützen dieses durch neu gestaltete Langkontext-Aufmerksamkeitsmechanismen. Unabhängige Tester berichteten von solider Erinnerungsleistung bei Qwen auch jenseits der 800.000-Token-Marke. Für ganze-Repository-Analysen oder das Einlesen langer Dokumentensammlungen behält jedes der beiden Modelle den Überblick.
Die Geschwindigkeit ist der entscheidende Unterschied. Qwen3.7 Max streamt in unabhängigen Tests mit rund 193 Tokens pro Sekunde; DeepSeek V4-Pro kommt auf etwa 80. DeepSeek benötigt zwar tatsächlich weniger Zeit bis zum ersten Token (ca. 1,87 s gegenüber 2,65 s bei Qwen), sodass es sich beim Start schneller anfühlt, doch Qwen schließt lange Generierungen deutlich schneller ab.
Beide Modelle sind außerdem bemerkenswert gesprächig. Bei der Berechnung des Artificial Analysis Intelligence Index verbrauchte DeepSeek V4-Pro 190 Millionen Ausgabetokens, Qwen3.7 Max 97 Millionen – beide weit über dem Durchschnitt der Konkurrenz, wobei DeepSeek zu den tokenhungrigsten getesteten Modellen zählt. Diese Gesprächigkeit verstärkt sich zusätzlich durch die Ausgabepreise – und da Ausgabetokens die teureren sind, kann ein redseliges Denkmodell Ihre Kosten stillschweigend deutlich über das hinaus treiben, was der angegebene Preis pro Token vermuten lässt.
Preis: Hier wird der Unterschied zur Schlucht
Dies ist der klarste Vorteil – und er geht an DeepSeek.
| Modell | Eingabe pro Mio. | Ausgabe pro Mio. | Cache-Lesezugriff pro Mio. | AA-gemischter Preis pro Mio. |
|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | ~$0.004 | $0.18 |
| DeepSeek V4-Flash | $0.14 | $0.28 | ~$0.003 | — |
| Qwen3.7 Max | $2.50 | $7.50 | ~$0.25 | $1.43 |
DeepSeek V4-Pro ist bei Eingabetokens etwa sechsmal und bei Ausgabetokens fast neunmal günstiger als Qwen3.7 Max. Wechselt man zu V4-Flash, vergrößert sich die Kluft bei hochvolumigen Chat- oder Klassifikationsanwendungen ins Absurde. Auch DeepSeeks Cache-Hit-Preise sind äußerst aggressiv – knapp 0,004 USD pro Million bei wiederholten Präfixen, also ein Rabatt von rund 99 %, der lange, stabile Systemprompts nahezu kostenlos macht.
Qwen bietet ebenfalls Prompt-Caching an (Cache-Lesezugriffe bei ca. 0,25 USD/Mio., also ein Rabatt von 90 %), und bei Artificials Analysis gemischtem Metrikmaß verringert sich die effektive Lücke auf etwa das Achtfache statt des offiziellen Neunfachen. Doch unter keiner Betrachtungsweise erscheint Qwen als preiswert. Sie bezahlen für die höhere Geschwindigkeit und die wenigen zusätzlichen Intelligence-Index-Punkte.
Welches Modell sollten Sie tatsächlich einsetzen?
Wählen Sie DeepSeek V4, wenn…
- Sie Open-Weights benötigen, die Sie selbst hosten, feinjustieren oder unter MIT-Lizenz air-gapped betreiben können.
- Kosten der entscheidende Faktor sind – es ist 6–9-mal günstiger, noch bevor der enorme Cache-Rabatt hinzukommt.
- Sie die längsten Ausgaben benötigen (bis zu 384.000 Tokens) für umfangreiche Generierungsaufgaben.
- Ihre Workload aus Wettbewerbsprogrammierung oder Mathematik besteht.
Wählen Sie Qwen3.7 Max, wenn…
- Sie die höchste gemessene allgemeine Intelligenz beider Modelle wünschen und dafür gerne mehr bezahlen.
- Durchsatz entscheidend ist – es generiert Ausgaben mehr als doppelt so schnell.
- Sie agentische, mehrstufige Ingenieuraufgaben entwickeln, bei denen es leicht überlegen ist.
- Sie eine verwaltete, geschlossene API und geringere Halluzinationsrate einer Selbsthosting-Lösung vorziehen.
Für die meisten Teams ist die Entscheidung letztlich eine Frage von Budget und Kontrolle – nicht von Fähigkeiten. Die Qualität ist so ähnlich, dass die Achsen offen versus geschlossen sowie günstig versus Premium die Wahl bestimmen. Falls Sie auch westliche Optionen vergleichen möchten, lesen Sie unsere Analyse GPT-5 vs. Claude 4 vs. Gemini 3, und unsere DeepSeek-vs.-ChatGPT-Vergleichsstudie geht detaillierter auf die Wertdifferenz zwischen den Regionen ein.
Häufig gestellte Fragen (FAQ)
Welches Modell eignet sich besser für Programmierung – DeepSeek V4 oder Qwen3.7 Max?
Sie liegen praktisch gleichauf bei SWE-bench Verified (80,6 % vs. 80,4 %). DeepSeek schneidet besser bei Wettbewerbsprogrammier-Benchmarks wie LiveCodeBench und Codeforces ab, während Qwen3.7 Max bei agentischen Ingenieuraufgaben wie SWE-bench Pro und Terminal-Bench einen leichten Vorteil beansprucht. Für die meisten Programmieraufgaben sind beide Modelle mehr als ausreichend leistungsfähig.
Welches Modell ist günstiger in der Nutzung?
DeepSeek V4 ist deutlich günstiger. V4-Pro kostet 0,435 USD / 0,87 USD pro Million Eingabe- / Ausgabetokens, während Qwen3.7 Max 2,50 USD / 7,50 USD verlangt – also etwa das Sechs- bis Neunfache. DeepSeeks V4-Flash-Variante und seine aggressiven Cache-Preise vergrößern diesen Vorteil bei Hochvolumenanwendungen weiter.
Kann ich diese Modelle herunterladen und lokal hosten?
DeepSeek V4 (sowohl Pro als auch Flash) wird mit Open-Weights unter der MIT-Lizenz auf Hugging Face bereitgestellt, sodass Sie es selbst hosten und feinjustieren können. Qwen3.7 Max ist hingegen geschlossenes Gewicht und ausschließlich API-basiert – Stand Juni 2026 gibt es keine herunterladbare Version.
Unterstützen beide Modelle wirklich ein Kontextfenster von einer Million Tokens?
Ja, beide geben ein Kontextfenster von einer Million Tokens an. DeepSeek unterstützt zudem bis zu 384.000 Ausgabetokens, während Qwen3.7 Max die Ausgabe bei etwa 65.000 Tokens begrenzt. Unabhängige Tester berichteten von einer starken Langkontext-Erinnerungsleistung bei Qwen jenseits der 800.000-Token-Marke.
Welches Modell ist schneller?
Qwen3.7 Max streamt Ausgaben schneller – rund 193 Tokens/Sekunde gegenüber etwa 80 bei DeepSeek V4-Pro in unabhängigen Tests. DeepSeek benötigt etwas weniger Zeit bis zum ersten Token und beginnt daher früher mit der Antwort, doch Qwen schließt lange Generierungen deutlich schneller ab.
Sind die Benchmark-Ergebnisse vertrauenswürdig?
Behandeln Sie sie mit Vorsicht. Viele der Schlagzeilenzahlen stammen von den Anbietern selbst und wurden noch nicht unabhängig reproduziert. Neutrale Aggregatoren wie Artificial Analysis bewerten Qwen3.7 Max mit einem höheren zusammengesetzten Intelligence Index (57 vs. 52). Eine US-amerikanische Regierungsbewertung (CAISI/NIST) kam zu dem Ergebnis, dass DeepSeek V4-Pro insgesamt etwa acht Monate hinter den führenden US-Modellen zurückliegt.
Ist Qwen3.7 Max tatsächlich intelligenter als DeepSeek V4?
Bei unabhängigen, zusammengesetzten Bewertungen ja – marginal: 57 vs. 52 Punkte im Artificial Analysis Intelligence Index. Der Unterschied ist real, aber gering – und er geht mit deutlich höheren Kosten und Einschränkungen bei der Offenheit einher. Ob diese wenigen Punkte die rund achtfache Mehrbelastung rechtfertigen, hängt vollständig von Ihrem Anwendungsfall ab.
Fazit
Diese beiden Modelle sind enger beieinander, als die Werbeaussagen vermuten lassen. Bei dem Benchmark, der für Entwickler am wichtigsten ist – SWE-bench Verified – liegen sie gleichauf; bei allgemeiner Intelligenz führt Qwen3.7 Max mit einem knappen, unabhängig bestätigten Vorsprung. Würde allein die Qualität entscheiden, würde Qwen punktemäßig gewinnen.
Doch Qualität entscheidet selten allein. DeepSeek V4 ist Open-Weight, MIT-lizenziert und 6–9-mal günstiger – damit ist es die Standardwahl für alle, denen Kosten, Kontrolle oder der Betrieb auf eigener Hardware wichtig sind. Qwen3.7 Max ist die Wahl, wenn Sie die etwas intelligentere, deutlich schnellere verwaltete API bevorzugen und das Budget keine Rolle spielt. Die meisten Teams greifen zu DeepSeek – und bemerken allenfalls bei den anspruchsvollsten agentischen Aufgaben, was ihnen möglicherweise fehlt.
