Is GLM 5.2 or Kimi K2.7 Code better for coding?

There's no fully independent answer yet, but on published numbers GLM 5.2 looks stronger for long-horizon coding: Zhipu's benchmarks put it at SWE-bench Pro 62.1 and FrontierSWE 74.4, ahead of GPT-5.5 on several suites, with a 1M context and Claude Code compatibility. Kimi K2.7 Code is cheaper per token and reports +21.8% on its own coding benchmark. A single-task Kilo head-to-head gave GLM a slight planning edge (9.0 vs 8.1, 15/15 vs 14/15 checks). All headline scores are vendor-published, so wait for independent SWE-bench runs before treating any of it as final.

Does GLM 5.2 have published benchmarks?

Yes — but not at launch. Zhipu first deployed GLM 5.2 to its Coding Plan tiers on June 13, 2026 with no benchmark table, then published a full set alongside the API and MIT open weights days later: SWE-bench Pro 62.1, Terminal-Bench 2.1 81.0, FrontierSWE 74.4, PostTrainBench 34.3, and SWE-Marathon 13.0, beating GPT-5.5 on several long-horizon suites while trailing Claude Opus 4.8 on most. Several were run by third-party evaluators but curated by Z.ai, so they're vendor-published, not fully independent.

Can I use GLM 5.2 with Claude Code?

Yes. Z.ai exposes an Anthropic-compatible endpoint (under api.z.ai, e.g. https://api.z.ai/api/anthropic or the coding endpoint), so you can point Claude Code or an Anthropic-SDK agent at GLM 5.2 by setting ANTHROPIC_BASE_URL and your Z.ai API key, then selecting the glm-5.2 (or glm-5.2[1m]) model — no code rewrite required. Expect to raise the request timeout, since first-token latency on the 1M context runs longer than Claude's default.

How much does each model cost?

Kimi K2.7 Code is metered at $0.95 per million input tokens, $4.00 output, and $0.19 cached. GLM 5.2 is metered around $1.40 input / $4.40 output per million, or sold through the GLM Coding Plan from $10/month (Lite), with Pro at $30 and Max at $80.

Is Kimi K2.7 Code free for commercial use?

Effectively yes. It uses a Modified-MIT license that permits commercial use; the only added condition is that products exceeding 100 million monthly active users or $20 million in monthly revenue must display "Kimi K2.7 Code" in their UI. GLM 5.2's plain MIT license has no such clause.

Can I run these models locally?

The weights are available — Kimi K2.7 Code on Hugging Face (vLLM/SGLang/KTransformers) and GLM 5.2 under MIT — but both are very large MoE models. Expect to need multi-GPU servers or heavy quantization; neither runs comfortably on a single consumer GPU.

Which has the larger context window?

GLM 5.2, by a wide margin: 1,000,000 tokens versus Kimi K2.7 Code's 256K. That makes GLM the better fit for whole-repository context and very long agent traces, though strong agent tooling reduces how often you need the full window.

GLM 5.2 vs. Kimi K2.7 Code: Welcher Open-Source-Code-Generator gewinnt?

Zwei der ambitioniertesten chinesischen KI-Forschungslabore haben diesen Monat innerhalb eines Tages neue Open-Weight-Programmiermodelle vorgestellt. Moonshot veröffentlichte Kimi K2.7 Code am 12. Juni; Zhipu (Z.ai) antwortete am 13. Juni mit GLM 5.2 Beide Modelle sind riesige Mixture-of-Experts-Systeme, beide sind unter permissiven Lizenzen verfügbar und beide zielen gezielt auf dieselbe Aufgabe ab: langfristige, agentenbasierte Programmierung – ohne die Kosten von Claude oder GPT zu verursachen.

Der entscheidende Unterschied liegt in der Art und Weise, wie jedes Labor die Benchmarks präsentierte. Moonshot veröffentlichte am ersten Tag eine umfangreiche Sammlung eigener Benchmark-Werte für K2.7 Code. Zhipu stellte GLM 5.2 zunächst in seinen Coding-Plan-Tarifen bereit – ohne jegliche Benchmark-Tabelle – und veröffentlichte erst Tage später, parallel zur API und zu den MIT-lizensierten offenen Gewichten, einen vollständigen Benchmark-Satz. Zum Zeitpunkt dieser Veröffentlichung verfügen beide Modelle also über vom Hersteller veröffentlichte Codierungs-Benchmark-Werte – allerdings fehlen noch umfassende, vollständig unabhängige SWE-bench-Ergebnisse, und Moonshots Leistungswerte beruhen auf proprietären internen Testumgebungen, deren Aussagekraft bereits von Praktikern hinterfragt wird. Hier erfahren Sie, wie sich beide Modelle tatsächlich vergleichen, was wir verifizieren können und was weiterhin ungeklärt bleibt.

Wichtigste Erkenntnisse

Unterschiedliche Architekturen, gleiche Zielsetzung. Kimi K2.7 Code ist ein MoE-Modell mit einer Billion Parametern, davon 32 Milliarden aktiv, und einem Kontextfenster von 256.000 Token; GLM 5.2 umfasst insgesamt etwa 744–753 Milliarden Parameter, davon rund 40 Milliarden aktiv, sowie ein volles Kontextfenster von einer Million Token.
Beide Modelle verfügen mittlerweile über Hersteller-Benchmarks. Moonshot gibt eine Steigerung von +21,8 % auf seinem eigenen Kimi Code Bench v2 an (62,0 gegenüber 50,9) sowie etwa 30 % weniger Reasoning-Token. Zhipu veröffentlichte später ebenfalls Benchmark-Werte für GLM 5.2 – SWE-bench Pro 62,1, Terminal-Bench 2.1 mit 81,0 und FrontierSWE 74,4 – und übertrifft damit GPT-5.5 bei mehreren Langzeit-Benchmark-Suiten. Behandeln Sie die Angaben beider Hersteller mit Vorsicht, bis unabhängige Tests vorliegen.
Preislich profitiert Kimi pro Token, GLM hingegen monatlich. Kimi wird mit 0,95 USD pro Million Eingabetoken und 4,00 USD pro Million Ausgabetoken abgerechnet; GLM kostet etwa 1,40 USD pro Million Eingabetoken und 4,40 USD pro Million Ausgabetoken – oder alternativ pauschal im GLM-Coding-Plan ab 10 USD/Monat (Lite).
Beide Modelle sind tatsächlich offen und kommerziell nutzbar. GLM 5.2 steht unter der MIT-Lizenz; Kimi unter einer modifizierten MIT-Lizenz (kommerzielle Nutzung erlaubt, mit einer Attributionsverpflichtung nur bei Überschreiten von 100 Millionen MAU oder eines monatlichen Umsatzes von 20 Millionen USD).
GLM lässt sich nahtlos in Claude Code integrieren. Z.ai stellt einen mit Anthropic kompatiblen Endpunkt bereit, sodass bestehende Claude-Code- oder Anthropic-SDK-Agenten lediglich durch Austausch der Basis-URL und des API-Schlüssels genutzt werden können.
Der Betrieb der Gewichte ist nicht für Laptops geeignet. 744 Milliarden+ bzw. eine Billion Parameter erfordern Mehr-GPU-Server oder starke Quantisierung – die meisten Nutzer werden daher zunächst auf Cloud-APIs zurückgreifen.

Die 30-Sekunden-Zusammenfassung

Wenn Sie den längsten Kontext, die stärksten veröffentlichten Open-Weight-Coding-Ergebnisse, eine MIT-Lizenz sowie eine pauschale monatliche Gebühr und nahtlose Kompatibilität mit Claude Code benötigen, ist GLM 5.2 derzeit das umfassendere Paket. Wenn Sie hingegen den günstigsten Preis pro Token, den besten Cache-Rabatt für tokenintensive Agent-Schleifen und nachgewiesene Verbesserungen bei der Token-Effizienz bevorzugen, ist Kimi K2.7 Code die schlankere Wahl. Die Benchmarks beider Anbieter stammen derzeit ausschließlich von den Herstellern selbst, und ein direkter Vergleich zu einer einzigen Aufgabe ergab einen leichten Vorteil für GLM – wer diese Woche also bereits einen endgültigen Gewinner kürt, stützt sich auf Marketingaussagen der Anbieter statt auf unabhängige Daten.

Architektur und aktive Parameter

Diese Modelle basieren auf derselben grundsätzlichen Idee – einem riesigen, spärlichen Mixture-of-Experts-(MoE)-Modell, bei dem pro Token nur ein Bruchteil der Parameter aktiviert wird – doch sie optimieren diese Architektur unterschiedlich.

Kimi K2.7 Code ist auf dem Papier das größere Modell: insgesamt eine Billion Parameter mit 32 Milliarden aktiven Parametern, ausgewählt aus 384 Experten (8 geroutete plus 1 gemeinsamer Experte pro Token). Diese spärliche Aktivierung ermöglicht es, ein Modell mit einer Billion Parameter zu einem vertretbaren Preis bereitzustellen. GLM 5.2 ist insgesamt kleiner (laut Dokumentation von Z.ai etwa 753 Milliarden Parameter, während Tracker wie vLLM etwa 744 Milliarden angeben), aktiviert jedoch pro Token leicht mehr Parameter (ca. 40 Milliarden) und setzt stattdessen auf einen längeren Kontext sowie ein zweistufiges Denkmodell – einen „High“-Modus für Routineaufgaben und einen „Max“-Modus für anspruchsvollere Architekturaufgaben und Debugging.

Die praktische Konsequenz: Kimis größerer Expertenpool könnte Breite des Wissens fördern, während GLMs höhere Anzahl aktiver Parameter und seine Denkmodi auf Tiefe bei einer einzelnen komplexen Aufgabe abzielen. Die veröffentlichten Benchmarks tendieren derzeit zugunsten von GLM bei langfristigen Engineering-Aufgaben, doch da es sich um Hersteller-betriebene Tests handelt, sollte die architektonische Argumentation als unterstützender Hinweis – nicht als endgültiges Urteil – betrachtet werden.

Kontextfenster: 1 Million vs. 256.000

Dies ist der deutlichste und am besten überprüfbare Unterschied: GLM 5.2 bietet einen echten Kontextumfang von einer Million Token (die glm-5.2[1m] Variante), wobei die Ausgabe auf rund 128.000–131.000 Token begrenzt ist. Kimi K2.7 Code verfügt über einen Kontextumfang von 256.000 Token (262.144 Token) und eine deutlich niedrigere Standard-Ausgabegrenze von 32.768 Token.

Für agentenbasierte Arbeiten im Repository-Maßstab – etwa das Laden eines großen Codebases, lange Plan-then-Execute-Verläufe oder Multi-File-Refaktorierungen in einem Durchgang – ist GLMs Fenster mit einer Million Token ein echter Vorteil und entspricht dem, was führende Open-Modelle wie DeepSeek V4 und Qwen 3.6 Plus mittlerweile bieten. Allerdings bleibt ein Kontext von 256.000 Token immer noch sehr groß; bei agentenbasierten Schleifen greifen gut konstruierte Tools meist gezielt auf kontextrelevante Teile zurück, anstatt das gesamte Repository in den Kontext einzufügen. Ein größerer Kontext hilft – er garantiert aber nicht automatisch besseren Code.

Codierungs-Benchmarks (und die Transparenzlücke)

Hier müssen Sie Ihre Skepsis aktiv halten, denn alle folgenden Überschriftenzahlen stammen vom jeweiligen Anbieter.

Moonshot berichtet, dass K2.7 Code bei seinem internen Kimi Code Bench v2 einen Wert von 62,0 erreicht – ein Plus von 21,8 % gegenüber K2.6 mit 50,9 – und zudem Fortschritte bei Program Bench sowie MCP-fokussierten agentenorientierten Test-Suiten verzeichnet, zusätzlich zu einer Reduktion des Reasoning-Token-Verbrauchs um rund 30 %. Das sind konkrete Aussagen – doch sie basieren auf Moonshots eigenen proprietären Benchmarks, und mindestens eine Medienquelle (VentureBeat) berichtete, dass Praktiker angaben, die Zahlen würden sich in der realen Anwendung nicht vollständig bestätigen. Unabhängige Ergebnisse für K2.7 Code im SWE-bench Verified oder SWE-bench Pro waren zum Zeitpunkt der Veröffentlichung nicht verfügbar.

GLM 5.2 wurde umgekehrt eingeführt: Es startete zunächst auf Zhips Coding-Plan-Tarifen ohne Benchmark-Tabelle; erst später veröffentlichte Z.ai zusammen mit der API und den Open-Weights eine vollständige Benchmark-Sammlung. Diese Ergebnisse sind beeindruckend – SWE-bench Pro 62,1 (gegenüber 58,6 bei GPT-5.5 und 58,4 bei GLM 5.1), Terminal-Bench 2.1 (Terminus-2) mit 81,0 (gegenüber 84,0 bei GPT-5.5), FrontierSWE mit 74,4 % (gegenüber 72,6 % bei GPT-5.5), sowie klare Vorteile bei langfristigen Aufgaben in PostTrainBench (34,3 vs. 28,4) und SWE-Marathon (13,0 vs. 12,0). Einige dieser Tests wurden von externen Evaluatoren durchgeführt (Proximal, das PostTrainBench-Team, Abundant AI), doch sie werden von Z.ai präsentiert und kuratiert – daher gelten sie als herstellerpubliziert und nicht als vollständig unabhängig. Fazit: GLM 5.2 erzielt auf dem Papier die stärkeren Open-Weight-Coding-Werte, bleibt aber bei den meisten davon hinter Claude Opus 4.8 zurück.

Ein näher an Neutralität liegender Datenpunkt existiert jedoch: Ein unabhängiger, vergleichsweise neutraler Direktvergleich von Kilo ergab einen Vorteil für GLM 5.2 bei Planungsaufgaben – 9,0 Punkte gegenüber 8,1 Punkten für Kimi bei einer Backend-Funktionstasten-Service-Aufgabe; GLM bestand dabei alle 15 Verifikationschecks, Kimi 14 von 15, und beide erzeugten nahezu identische funktionierende Builds. Das ist ein nützliches Signal, doch handelt es sich um eine einzelne Aufgabe durch einen einzigen Evaluierer – nicht um eine umfassende Benchmark-Suite.

Spezifikationen	GLM 5.2 (Zhipu / Z.ai)	Kimi K2.7 Code (Moonshot)
Veröffentlicht	13. Juni 2026	12. Juni 2026
Gesamt- / aktive Parameter	~744–753 Mrd. MoE / ~40 Mrd.	1 Bio. MoE / 32 Mrd. (384 Experten)
Kontextfenster	1.000.000 Tokens	256.000 (262.144) Token
Maximale Ausgabe	~128.000–131.000 Token	~32.000 (32.768) Token
Offizielle Coding-Benchmarks	SWE-bench Pro 62,1; Terminal-Bench 2.1 81,0; FrontierSWE 74,4 % (vom Hersteller veröffentlicht, teilweise von Dritten durchgeführt)	+21,8 % beim Kimi Code Bench v2 (62,0 vs. 50,9, vom Hersteller angegeben)
Unabhängige SWE-bench-Tests	Noch nicht verfügbar (öffentliche Suiten)	Noch nicht verfügbar
API-Preis (pro 1 Mio.)	~1,40 USD Eingabe / ~4,40 USD Ausgabe; Pauschalplan ab 10 USD/Monat	0,95 USD Eingabe / 4,00 USD Ausgabe; 0,19 USD pro zwischengespeichertem Eingabetoken
Lizenz	MIT	Geänderte MIT-Lizenz (kommerzielle Nutzung erlaubt; Namensnennung erforderlich bei >100 Mio. MAU oder >20 Mio. USD/Monat)
Endpoint-Kompatibilität	Kompatibel mit OpenAI- und Anthropic-Endpunkten	Kompatibel mit OpenAI-Endpunkten (Moonshot / OpenRouter)

Preisgestaltung und Wert

Die Preismodelle sind unterschiedlich strukturiert – die Antwort auf die Frage nach dem „günstigeren“ Angebot hängt daher von der konkreten Nutzung ab.

Kimi K2.7 Code nutzt ein einfaches, nach Verbrauch abgerechnetes API-Modell: 0,95 USD pro Million Eingabetokens, 4,00 USD pro Million Ausgabetokens und bemerkenswert günstige 0,19 USD pro Million zwischengespeicherter Eingabetokens. Diese Cache-Rate ist besonders wichtig für agentenbasiertes Programmieren, bei dem bei jedem Schritt stabiler Kontext wiederholt gesendet wird. Bei diesen Preisen ist Kimi deutlich günstiger als westliche Spitzenmodelle – allein der Ausgabe-Preis ist mehr als zehnmal niedriger als bei Premium-Optionen.

GLM 5.2 wird mit etwa 1,40 USD pro Million Eingabetokens und 4,40 USD pro Million Ausgabetokens abgerechnet (live bei Providern wie FriendliAI, Novita und Z.ai); Zhipu bietet zudem den GLM Coding Plan an – ein pauschaler Abonnementtarif mit den Stufen Lite, Pro, Max und Team. Lite beginnt bei 10 USD/Monat (ca. 400 Prompts/Woche), Pro bei 30 USD/Monat und Max bei 80 USD/Monat – ein ausgezeichneter Wert, wenn Sie täglich programmieren und eine vorhersehbare Abrechnung wünschen.

Wenn Sie als Einzelentwickler den ganzen Tag in einem Agenten arbeiten, kann GLMs Pauschalplan die kostengünstigere Wahl im Alltag sein. Wenn Sie hingegen variable oder stark schwankende Workloads betreiben oder ein Produkt darauf aufbauen, ist Kimis nach Verbrauch abgerechneter Tarif mit günstigem Caching einfacher zu kalkulieren. Für ein umfassenderes Kostenbild im Bereich selbsthostbarer Optionen stellt unser Überblick der beste lokalen LLM für Programmierung im Jahr 2026 beide Modelle in den Kontext.

Lizenz und Offenheit

Beide Modelle sind tatsächlich Open-Weight – das unterscheidet sie von geschlossenen Spitzenlaboren – doch die Details der Lizenzbedingungen weichen voneinander ab.

GLM 5.2 nutzt die klassische MIT-Lizenz: Sie dürfen das Modell verwenden, modifizieren und kommerziell einsetzen – ohne Einschränkungen. Kimi K2.7 Code verwendet eine modifizierte MIT-Lizenz, die ebenfalls kommerzielle Nutzung erlaubt, jedoch eine Bedingung enthält: Sobald Ihr Produkt 100 Millionen monatlich aktive Nutzer oder einen monatlichen Umsatz von 20 Millionen USD überschreitet, müssen Sie „Kimi K2.7 Code“ prominent in der Benutzeroberfläche anzeigen. Für nahezu jedes Team ist dies kein Thema; für einen Hyperscaler stellt es jedoch eine reale Klausel dar. Rein hinsichtlich der Freiheit der Lizenz hat GLM 5.2 mit seiner MIT-Lizenz hier einen klaren Vorteil.

Stärken von GLM 5.2

Vollständiger Kontextumfang von einer Million Token für Repository-skalige Aufgaben
Stärkste veröffentlichte Open-Weight-Coding-Ergebnisse beider Modelle
Unbeschränkte MIT-Lizenz
Nahtlose Kompatibilität mit Anthropic- und OpenAI-Endpunkten
Pauschalpreis-Programmierplan ab 10 USD/Monat
Steuerbare Denkmodi: „High“ für Routineaufgaben und „Max“ für komplexe Probleme

Einschränkungen von GLM 5.2

Benchmarks stammen vom Hersteller (teilweise von Dritten durchgeführt); bislang keine breit angelegte, unabhängige SWE-bench-Suite verfügbar
Preis pro Token etwas höher als bei Kimi
Geringere Gesamtanzahl an Parametern

Agentenbasierte Funktionalität und Tool-Nutzung

Beide Modelle zielen explizit auf langfristige Coding-Agenten ab – nicht nur auf Snippet-Vervollständigung – und unterstützen beide starke Tool-Aufrufe.

GLM 5.2s herausragendes Merkmal für Agentenentwickler ist die Kompatibilität: Da Z.ai neben einem OpenAI-kompatiblen auch einen Anthropic-kompatiblen Endpoint bereitstellt, können Sie einfach die Basis-URL und den API-Schlüssel austauschen, um Claude Code oder einen Anthropic-SDK-Agenten direkt darauf auszurichten – ohne Code-Umschreibung. Außerdem integriert es sich nativ in Cline, Cursor und über 20 weitere Entwickler-Tools, und seine veröffentlichten Langzeit-Benchmark-Ergebnisse (FrontierSWE, PostTrainBench, SWE-Marathon) richten sich gezielt auf mehrstündige Agenten-Workloads. Kimi K2.7 Code fokussiert sich hingegen auf messbare Agenten-Effizienz: Moonshots angegebene Reduktion des Reasoning-Token-Verbrauchs um rund 30 % zielt direkt auf Kosten und Latenz bei mehrstufigen Agenten-Schleifen ab, und das Modell erzielt Fortschritte bei MCP-orientierten Test-Suiten. Wenn Sie sich für ein Agenten-Framework entscheiden, das auf eines dieser beiden Modelle abgestimmt ist, behandelt unser Leitfaden zu den beste KI-Agenten-Frameworks im Jahr 2026 die Orchestrierungsschicht.

Wie man beide Modelle tatsächlich betreibt

Es gibt zwei Wege – und für die meisten Menschen ist der Cloud-Weg der einfachere.

Cloud-API ist der einfache Weg. Kimi K2.7 Code ist über die Moonshot-API und Aggregatoren wie OpenRouter verfügbar; GLM 5.2 läuft über den GLM Coding Plan sowie OpenAI-/Anthropic-kompatible Endpoints (Basis-URL api.z.ai). Hier sollten nahezu alle Anwender beginnen.

Offene Gewichte sind veröffentlicht – Kimi K2.7 Code steht auf Hugging Face mit Unterstützung für vLLM, SGLang und KTransformers zur Verfügung, und GLM 5.2s MIT-gelizenzierte Gewichte können heruntergeladen werden – doch die Hardware-Anforderungen sind hoch. Ein Modell mit einer Billion Parametern (selbst bei nur 32 Milliarden aktiven Parametern) oder ein Modell mit rund 750 Milliarden Parametern erfordert Mehr-GPU-Server oder aggressive GGUF-Quantisierung für den lokalen Betrieb; diese Modelle sind nicht für einzelne Consumer-Grafikkarten geeignet. Wenn Ihr Ziel ist, kleinere Programmiermodelle auf handelsüblicher Hardware selbst zu hosten, sind Sie mit den besten lokalen LLMs für Ollama im Jahr 2026 als von einem dieser beiden Schwergewichte.

Einordnung im Vergleich zu DeepSeek V4 und Qwen 3.x

Keines der beiden Modelle existiert isoliert. DeepSeek V4-Pro (veröffentlicht im April 2026) umfasst 1,6 Billionen Parameter, bietet einen Kontextumfang von 1 Million Token und ist unter der MIT-Lizenz verfügbar; zudem erzielt es mit 80,6 % auf SWE-bench Verified ein bestätigtes Ergebnis – aktuell die beste bewertete Leistung eines offenen Modells. Qwen 3.6 Plus bietet ebenfalls einen Kontextumfang von 1 Million Token sowie eine konkurrenzfähige Spitzenleistung von 78,8 % auf SWE-bench Verified. Mit anderen Worten: GLM 5.2 und Kimi K2.7 Code treten in ein überfülltes und sich rasch entwickelndes Feld ein, in dem Konkurrenten bereits veröffentlichte, zumindest teilweise unabhängige Benchmarks auf den gängigen öffentlichen Test-Suiten vorlegen konnten. Die vom Hersteller angegebenen Werte für GLM 5.2 sind wettbewerbsfähig, doch bei den Goldstandard-Vergleichen auf SWE-bench Verified führen derzeit weiterhin DeepSeek und Qwen. Für einen detaillierteren Vergleich dieses Paares siehe unseren Vergleich DeepSeek V4 vs. Qwen3.

Häufig gestellte Fragen (FAQ)

Welches Modell eignet sich besser für Programmieraufgaben – GLM 5.2 oder Kimi K2.7 Code?

Eine vollständig unabhängige Antwort liegt noch nicht vor; nach den veröffentlichten Kennzahlen jedoch scheint GLM 5.2 bei langfristigen Programmieraufgaben stärker zu sein: Zhipus Benchmarks weisen ihm SWE-bench Pro 62,1 und FrontierSWE 74,4 zu – Werte, die GPT-5.5 auf mehreren Test-Suiten übertreffen – und verfügen zudem über einen Kontextumfang von 1 Million Token sowie Kompatibilität mit Claude Code. Kimi K2.7 Code ist kostengünstiger pro Token und meldet einen Zuwachs von +21,8 % auf seinem eigenen Programmier-Benchmark. Ein direkter, auf eine einzige Aufgabe fokussierter Vergleich mit 1.000 Durchläufen ergab einen leichten Vorteil von GLM bei der Planung (9,0 gegenüber 8,1 Punkten; 15 von 15 gegenüber 14 von 15 erfolgreichen Checks). Alle genannten Ergebnisse stammen vom jeweiligen Hersteller; bevor diese als endgültig betrachtet werden können, sollten daher unabhängige SWE-bench-Tests abgewartet werden.

Liegen für GLM 5.2 veröffentlichte Benchmarks vor?

Ja – allerdings nicht zum Zeitpunkt der Markteinführung. Zhipu stellte GLM 5.2 zunächst am 13. Juni 2026 in seinen Coding-Plan-Tarifen bereit, ohne dabei eine Benchmark-Tabelle zu veröffentlichen; erst einige Tage später folgte die Veröffentlichung einer umfassenden Benchmark-Sammlung parallel zur API-Freigabe und zur Bereitstellung der Gewichte unter der MIT-Lizenz: SWE-bench Pro 62,1, Terminal-Bench 2.1 mit 81,0, FrontierSWE 74,4, PostTrainBench 34,3 und SWE-Marathon 13,0 – dabei schneidet GLM 5.2 auf mehreren Langzeit-Test-Suiten besser ab als GPT-5.5, bleibt aber hinter Claude Opus 4.8 auf den meisten Tests zurück. Einige dieser Benchmarks wurden zwar von externen Evaluatoren durchgeführt, wurden jedoch von Z.ai kuratiert; sie gelten daher als vom Hersteller veröffentlicht, nicht als vollständig unabhängig.

Kann ich GLM 5.2 mit Claude Code nutzen?

Ja. Z.ai stellt einen mit Anthropic kompatiblen Endpunkt bereit (unter api.z.ai, z. B. https://api.z.ai/api/anthropic oder dem Programmier-Endpunkt), sodass Sie Claude Code oder einen Agenten mit dem Anthropic-SDK problemlos auf GLM 5.2 ausrichten können, indem Sie ANTHROPIC_BASE_URL und Ihren Z.ai-API-Schlüssel festlegen und anschließend das Modell glm-5.2 (bzw. glm-5.2[1m]) auswählen – ohne dass Änderungen am Code erforderlich sind. Beachten Sie jedoch, dass Sie das Timeout für Anfragen erhöhen sollten, da die Latenz bis zum ersten Token beim 1-Million-Token-Kontext deutlich höher liegt als der Standardwert bei Claude.

Wie hoch sind die Kosten für jedes Modell?

Kimi K2.7 Code wird nach Verbrauch abgerechnet: 0,95 USD pro Million Eingabetokens, 4,00 USD pro Million Ausgabetokens und 0,19 USD pro Million zwischengespeicherter Tokens. GLM 5.2 kostet etwa 1,40 USD pro Million Eingabetokens bzw. 4,40 USD pro Million Ausgabetokens; alternativ ist es im Rahmen des GLM-Coding-Plans erhältlich – ab 10 USD/Monat (Lite), 30 USD für Pro und 80 USD für Max.

Ist Kimi K2.7 Code für kommerzielle Zwecke kostenlos nutzbar?

Effektiv ja. Es wird unter einer modifizierten MIT-Lizenz bereitgestellt, die kommerzielle Nutzung ausdrücklich erlaubt; die einzige zusätzliche Bedingung lautet, dass Produkte mit mehr als 100 Millionen monatlichen aktiven Nutzern oder einem monatlichen Umsatz von über 20 Millionen USD den Hinweis „Kimi K2.7 Code“ in ihrer Benutzeroberfläche anzeigen müssen. Die einfache MIT-Lizenz für GLM 5.2 enthält keine derartige Klausel.

Kann ich diese Modelle lokal ausführen?

Die Gewichte stehen zur Verfügung – Kimi K2.7 Code auf Hugging Face (für vLLM/SGLang/KTransformers) und GLM 5.2 unter der MIT-Lizenz – beide Modelle sind jedoch sehr große MoE-Modelle. Rechnen Sie damit, Mehr-GPU-Server oder starke Quantisierung einzusetzen zu müssen; keines der beiden läuft komfortabel auf einer einzelnen Consumer-GPU.

Welches Modell bietet das größere Kontextfenster?

GLM 5.2 – und zwar deutlich: 1.000.000 Token gegenüber 256.000 Token bei Kimi K2.7 Code. Damit eignet sich GLM besser für den gesamten Repository-Kontext und extrem lange Agent-Verläufe, obwohl leistungsfähige Agent-Tools reduzieren, wie oft man tatsächlich das volle Kontextfenster benötigt.

Fazit

Dies sind zwei hervorragende, wirklich offene Programmiermodelle, die innerhalb eines Tages nacheinander erschienen sind; das ehrliche Fazit lautet: Es ist knapp – wobei GLM 5.2 derzeit den papiermäßigen Vorteil besitzt. Beide Hersteller haben Programmier-Benchmarks veröffentlicht, wobei die von Zhipu die stärkeren sind (SWE-bench Pro 62,1, FrontierSWE 74,4 – besser als GPT-5.5 auf mehreren Langzeit-Test-Suiten); hinzu kommen ein Kontextumfang von 1 Million Token, eine uneingeschränkte MIT-Lizenz, transparente Pauschalpreise und nahtlose Integration in Claude Code. Kimi K2.7 Code kontert mit dem günstigsten Preis pro Token, einem attraktiven Cache-Rabatt, token-effizienten Agent-Loops und eigenen, angegebenen Leistungssteigerungen.

Falls Sie ein Produkt in Produktion bringen oder stark schwankende Arbeitslasten bewältigen müssen, beginnen Sie am besten mit der nach Verbrauch abgerechneten API von Kimi und ihrem Cache-Rabatt. Falls Sie den ganzen Tag in einem Programmier-Agenten arbeiten und Wert auf ein Kontextfenster von 1 Million Token, die besten veröffentlichten Benchmarks sowie sofortige Kompatibilität mit Anthropic legen, ist der Coding-Plan von GLM 5.2 schwer zu schlagen. Und egal für welches Modell Sie sich entscheiden: Denken Sie daran, dass alle hier genannten Kennzahlen vom jeweiligen Hersteller stammen – warten Sie daher auf unabhängige SWE-bench-Verified-Ergebnisse, bevor Sie irgendeine Marketing-Aussage als gesicherte Tatsache betrachten. In einem Bereich, in dem DeepSeek V4-Pro bereits eine verifizierte Quote von 80,6 % auf SWE-bench Verified erreicht hat, wird die Messlatte für den „besten offenen Programmier-Assistenten“ von neutralen Evaluatoren festgelegt – nicht von den Laboren, die die Modelle entwickelt haben.