Monday, 22 June 2026 | Updating Daily AI insight, written for builders

Kimi K2.7 Code erklärt: Moonshots offenes Codierungsmodell mit einer Billion Parametern

Moonshot AI veröffentlichte Kimi K2.7 Code am 12. Juni 2026 – und der Name ist diesmal besonders aussagekräftig. Dies ist kein neuer allgemeiner Chatbot namens ‚Kimi 2.7‘, sondern ein ausschließlich auf Programmierung spezialisiertes Modell: ein Mixture-of-Experts-System mit einer Billion Parameter, das gezielt darauf ausgelegt ist, Softwareprojekte zu planen, Dateien zu bearbeiten, Tools auszuführen und komplexe, mehrstufige Softwareaufgaben zu bewältigen. Für gewöhnliche Unterhaltungen verweist Moonshot weiterhin auf das ältere Modell K2.6.

Der Fokus liegt auf Effizienz: K2.7 Code erzielt laut Herstellerangaben höhere Coding-Scores als K2.6, verbraucht jedoch rund 30 % weniger Reasoning-Tokens. Der Preis liegt bei 0,95 USD pro Million Eingabetokens und 4,00 USD pro Million Ausgabetokens – nur ein Bruchteil dessen, was führende geschlossene Modelle verlangen. Die Gewichte sind unter einer modifizierten MIT-Lizenz öffentlich zugänglich, sodass Sie das Modell auch selbst betreiben können – vorausgesetzt, Sie verfügen über die erforderliche Hardware für ein Modell, das selbst in seiner nativen 4-Bit-Darstellung immer noch etwa 595 GB Speicherplatz belegt. Im Folgenden erfahren Sie, was real ist, was vom Hersteller angegeben wird und wo sich das Modell einordnet.

Wichtigste Erkenntnisse

  • Exklusiv für Programmierung, kein Chatbot. ‚K2.7 Code‘ ist ein dediziertes agentenbasiertes Coding-Modell; für allgemeine Anwendungen empfiehlt Moonshot weiterhin K2.6.
  • 1-Billion-Parameter-MoE mit 32 Milliarden aktiven Parametern. 384 Experten (8 geroutet + 1 gemeinsam genutzt), 61 Schichten, Kontextfenster von 256K, Vokabularumfang von 160K, MLA-Attention sowie ein 400-Millionen-Parameter-MoonViT-Vision-Encoder für Bild- und Videoeingaben.
  • Denken ist zwingend erforderlich. Es gibt keinen Modus ohne Denken; das Deaktivieren führt zu einem API-Fehler.
  • Vom Hersteller angegebene Verbesserungen gegenüber K2.6: +21,8 % bei Kimi Code Bench v2, +11,0 % bei Program Bench, +31,5 % bei MLS Bench Lite – bei rund 30 % weniger Reasoning-Tokens.
  • Aggressive Preisgestaltung: 0,95 USD pro Million Eingabetokens / 4,00 USD pro Million Ausgabetokens; bei Cache-Hits nahe 0,19 USD – etwa sechsmal günstiger als Claude Opus 4.8 und bis zu zwölfmal günstiger als Claude Fable 5 bei Ausgabetokens.
  • Offene Gewichte, hoher Hardwareaufwand. Modifizierte MIT-Lizenz auf Hugging Face; die Gewichte liegen nativ im int4-Format vor (~595 GB). Für eine realistische lokale Inferenz werden nach wie vor etwa acht GPUs der 80-GB-Klasse benötigt (~640 GB VRAM).

Was Kimi K2.7 Code tatsächlich ist

K2.7 Code ist die jüngste Ergänzung der rasant wachsenden Kimi-Reihe von Moonshot und das erste Modell, das das Unternehmen gezielt als auf Programmierung spezialisierte Version statt als allgemeines Modell mit einer zusätzlichen Coding-Funktion herausgebracht hat. Das Designziel ist langfristiges Software-Engineering – also genau die Art von Aufgaben, bei denen ein Agent ein Repository liest, eine Änderung plant, mehrere Dateien bearbeitet, einen Build durchführt, den Fehler liest und iterativ weiterarbeitet. Es wurde entwickelt, um zu handeln – nicht um zu unterhalten.

Diese Fokussierung zeigt sich bereits in den Standardeinstellungen: Das Modell läuft stets im ‚Denkmodus‘ – dieser lässt sich nicht deaktivieren, und die API lehnt Anfragen ab, die dies versuchen. Die Annahme dahinter ist, dass für agentenbasierte Programmieraufgaben die Reasoning-Traces ihren Preis wert sind und dass die Effizienzgewinne von K2.7 diese Kosten im Rahmen halten. Falls Sie ein Modell benötigen, das lediglich schnell und kostengünstig auf einfache Fragen antwortet, empfiehlt Moonshot ausdrücklich stattdessen K2.6. Den gesamten Modellfamilienkontext behandeln wir in unserem Moonshot-Kimi-Überblick.

Technische Daten und Architektur

Die Architektur basiert auf einem sparsamen MoE (Mixture of Experts). Von den insgesamt einer Billion Parameter werden pro Token nur etwa 32 Milliarden aktiviert – dadurch bleiben Rechenkosten und Latenz weit unter dem Niveau, das ein dichtes 1-Billion-Parameter-Modell implizieren würde.

SpezifikationKimi K2.7 Code
Gesamtanzahl ParameterEine Billion (MoE)
Aktiv pro Tokenca. 32 Milliarden
Experten384 (8 geroutet + 1 gemeinsam genutzt)
Schichten61 (davon 1 dicht)
Kontextfenster256K Tokens (262.144)
Vokabular160K
AttentionMLA (Multi-Head Latent Attention)
ModalitätText, Bild, Video (über 400-Mio.-Parameter-MoonViT-Encoder)
Native PräzisionINT4 (MoE-Gewichte), BF16-Attention
DenkmodusObligatorisch (kann nicht deaktiviert werden)
LizenzModifizierte MIT-Lizenz (offene Gewichte)

Die native multimodale Eingabe ist ein echter Unterscheidungsfaktor für ein Codierungsmodell. Sie können ihm einen Screenshot einer fehlerhaften Benutzeroberfläche, ein Diagramm oder eine kurze Bildschirmaufnahme zusammen mit dem Code übergeben. Die meisten auf Programmierung ausgerichteten offenen Modelle verarbeiten ausschließlich Text – diese Fähigkeit erweitert daher die praktischen Anwendungsfälle deutlich: etwa das Debugging anhand eines Screenshots oder die Implementierung anhand eines Mockups – und zwar ohne separate Vision-Pipeline.

Die Benchmark-Ergebnisse – ehrlich betrachtet

Die von Moonshot angegebenen Leistungsdaten vergleichen K2.7 Code mit K2.6 anhand interner Benchmark-Suiten. Diese Angaben stammen vom Hersteller und basieren auf Moonshots eigenen Benchmarks; sie sind daher als Richtwerte zu verstehen, nicht als neutrale Wahrheit.

Benchmark (vom Hersteller angegeben)K2.6K2.7 CodeVeränderung
Kimi Code Bench v250.962.0+21.8%
Program Bench48.353.6+11.0%
MLS Bench Lite26.735.1+31.5%
MCPMark Verified72.881.1+11.4%
Verwendete Denk-TokenBasiswertca. 30 % wenigereffizienter

Bei Agent-Tool-Benchmarks (MCP Atlas, MCPMark Verified, Claw 24/7 von Kimi) berichtet Moonshot Verbesserungen von rund 10 % gegenüber K2.6 – geringer, aber in die richtige Richtung.

Unabhängige Daten liegen zunehmend vor. Artificial Analysis, das eigene Messungen durchführt statt Herstellerangaben zu übernehmen, bewertet K2.7 Code mit 42 Punkten im zusammengesetzten Intelligence Index und platziert es damit unter den von ihm verfolgten Open-Weight-Modellen an etwa sechster Stelle. Die Ausgabegeschwindigkeit liegt bei ca. 55,8 Tokens pro Sekunde, die Zeit bis zum ersten Token beträgt etwa 2,25 Sekunden – gemessen über Moonshots Standard-API. Dies ist respektabel, aber kein Rekordwert; zudem bedeutet der obligatorische Denkmodus, dass die tatsächliche Latenz bei kompletten Agent-Aufgaben höher ist, als die Zeit bis zum ersten Token vermuten lässt. (Moonshot bietet zudem einen separaten Hochgeschwindigkeits-Endpunkt an, der deutlich schneller läuft; hier jedoch wird ausschließlich das Referenzmodell getestet.)

Der nützlichste unabhängige Vergleich stammt aus direkten Codierungs-Tests. Bei MCPMark Verified, einem Agent-Tool-Benchmark, erreicht K2.7 Code 81,1 Punkte und liegt damit knapp vor Claude Opus 4.8 mit 76,4 – GPT-5.5 führt jedoch deutlich mit 92,9 Punkten. Bei Moonshots eigenem Program Bench liegt GPT-5.5 mit 69,1 klar vor K2.7 Code mit 53,6. Die ehrliche Zusammenfassung lautet: K2.7 Code ist bei einigen agentic-tool-basierten Aufgaben mit Spitzenmodellen konkurrenzfähig, bei anderen deutlich zurück. Es ist nicht der neue Stand der Technik. Sein Vorteil liegt allein im Preis.

Preisgestaltung und Wert

Hier macht K2.7 Code auf sich aufmerksam. Folgende veröffentlichte API-Preise stehen dem aktuellen geschlossenen Spitzenmodell gegenüber – jeweils pro Million Tokens.

ModellEingabeAusgabe
Kimi K2.7 Code$0.95$4.00
Claude Opus 4.8$5.00$25.00
GPT-5.5$5.00$30.00
Claude Fable 5$10.00$50.00

Bei der Ausgabe ist K2.7 Code etwa sechsmal günstiger als Opus 4.8 und mehr als zwölfmal günstiger als Fable 5. Cache-Hits kosten etwa 0,19 USD pro Million Eingabetokens – ein entscheidender Faktor für Agenten, die dieselben Dateien wiederholt lesen. In Verbindung mit einer um ~30 % geringeren Anzahl an Denk-Tokens pro Aufgabe vergrößert sich die effektive Kostenlücke noch weiter.

Der Trade-off ist klar: geringere Rohleistung pro Aufruf, doch mit demselben Budget lassen sich deutlich mehr Aufrufe tätigen. Für hochvolumige Agent-Arbeitslasten – CI-Bots, Massenrefactorings, Testgenerierung, automatisierte Triage – kann es sich lohnen, K2.7 Code mehrfach auszuführen und das beste Ergebnis zu wählen, statt einen einzigen teuren Aufruf an ein Spitzenmodell zu tätigen. Für eine einzelne, subtile architektonische Entscheidung mag die höhere Trefferquote des Spitzenmodells nach wie vor den Aufpreis rechtfertigen. Falls Sie Optionen im gesamten Feld abwägen, liefert unser Überblick über die beste KI-Coding-Assistenten setzt dies in Kontext.

Stärken

  • Offene Gewichte unter einer permissiven modifizierten MIT-Lizenz
  • Sehr niedrige Kosten pro Token inklusive günstiger Cache-Hits
  • Native Bild- und Videoeingabe – selten bei Codierungsmodellen
  • Ein Kontextfenster von 256K eignet sich für agentenbasierte Aufgaben im gesamten Repository
  • Eine Reduktion der Denk-Token um ~30 % senkt die Agent-Kosten

Einschränkungen

  • Liegt bei mehreren Codierungsbenchmarks hinter GPT-5.5 zurück
  • Der obligatorische Denkmodus erhöht die Latenz und schließt schnelle, nicht-denkbasierte Aufrufe aus
  • Lokales Hosting erfordert Grafikprozessoren der Rechenzentrumsklasse
  • Die angegebenen Leistungssteigerungen stammen vom Hersteller und wurden an internen Benchmark-Suiten ermittelt
  • Nicht für allgemeine Chat-Anwendungen empfohlen – bewusst auf einen engen Anwendungsbereich ausgelegt

Wie man es nutzt: API versus lokaler Betrieb der Gewichte

Der einfachste Weg ist die API. K2.7 Code ist über die Kimi-API von Moonshot sowie über die Kimi Code CLI verfügbar und unterstützt die gängigen Tool-Calling-Konventionen – so lässt es sich problemlos in bestehende Agent-Umgebungen integrieren. Wenn Sie auf Agent-Frameworks aufbauen, finden Sie in unserer Anleitung zu den besten AI-Agent-Frameworks Hinweise, wo ein Modell wie dieses am besten eingesetzt wird.

Das Ausführen der offenen Gewichte ist dagegen eine andere Geschichte – hier gilt es, realistisch zu bleiben. Wie bereits Kimi K2 Thinking vor ihm wird K2.7 Code vorquantisiert im nativen INT4-Format ausgeliefert: Die MoE-Gewichte sind mittels quantisierungsbewusstem Training auf 4 Bit komprimiert, während die Attention in BF16 bleibt. Daher benötigt die Hugging-Face-Version auf Festplatte etwa 595 GB statt der rund 2 TB, die eine vollständige BF16-Darstellung eines Modells mit einer Billion Parametern erfordern würde. (Eine vollpräzise BF16-Version wird von Moonshot nicht bereitgestellt.) Das Modell lässt sich mit vLLM, SGLang und KTransformers betreiben.

EinrichtungRealität
ca. 8× GPUs der 80-GB-Klasse (≈640 GB VRAM), native INT4Empfohlene Produktionskonfiguration für vollständigen Kontext (≈5× H200 entspricht ungefähr dieser Leistung)
4× RTX 4090 (96 GB), mit CPU-/RAM-OffloadMöglich, aber Kontext auf ~64K–128K begrenzt und deutlich geringere Durchsatzrate
Einzelne Consumer-GPUFür das vollständige Modell nicht tragfähig

Kurz gesagt: ‚Offene Gewichte‘ bedeutet nicht ‚lässt sich auf Ihrem Laptop ausführen‘. Selbst im nativen 4-Bit-Format überschreiten die Gewichte allein mehr als eine halbe Terabyte – für die meisten Teams ist daher die API der sinnvolle Weg, während Self-Hosting nur für Organisationen mit erheblichen GPU-Budgets oder strengen Anforderungen an die Datenhoheit infrage kommt. Falls lokale Ausführung zwingend erforderlich ist, sollten Sie kleinere Alternativen in unserem beste lokales LLM Leitfaden für Codierungsmodelle prüfen, der Modelle enthält, die auf realistischer Hardware lauffähig sind.

Vergleich mit K2.6 und Konkurrenten

Im Vergleich zu K2.6 ist K2.7 Code das bessere Werkzeug für langfristige, mehrstufige Codierungsagenten – und für alles andere das schlechtere. Moonshots eigene Empfehlung lautet, K2.6 für allgemeine Aufgaben beizubehalten. Diese Aufteilung ist bewusst: Ein Modell optimiert für agentenbasiertes Programmieren, das andere für Breite.

Im Vergleich zum breiteren offenen Feld ist der offensichtliche Rivale für 2026 Zhipus GLM-5.2, ein weiteres großes offenes Modell, das dieselbe Nische für Code-Agenten anstrebt; wir analysieren dieses Modell in unserem GLM-5.2-Explaner, und stellen die beiden Modelle in GLM-5.2 vs. Kimi K2.7 für Programmieraufgabengegeneinander. Ein fairer direkter Vergleich ist nach wie vor schwer zu bewerten: Zhipu veröffentlichte GLM-5.2 ohne offizielle Benchmark-Werte, und neutrale Dritte haben bislang noch keine direkt vergleichbaren Agenten-Programmier-Benchmark-Ergebnisse für beide Modelle vorgelegt – jeder heutige Anspruch auf einen „Gewinner“ wäre verfrüht. Im Vergleich zu den geschlossenen Spitzenmodellen stellt K2.7 Code eine Wert-orientierte Lösung dar, nicht jedoch einen Führer in Sachen Funktionsumfang: Man akzeptiert eine messbare Leistungslücke gegenüber GPT-5.5, im Austausch dafür erhält man offene Gewichte und einen Preis, der um eine Größenordnung niedriger liegen kann.

Häufig gestellte Fragen (FAQ)

Ist Kimi K2.7 Code ein Chatbot oder ein Programmiermodell?

Es handelt sich um ein auf Programmierung spezialisiertes Modell, das für agentenbasierte Softwareaufgaben konzipiert ist – etwa Planung, Bearbeitung von Dateien, Ausführung von Tools und Debugging über mehrere Schritte hinweg. Es wird nicht als allgemeiner Chatbot positioniert. Moonshot empfiehlt das ältere Modell K2.6 für allgemeine Unterhaltungen und behält K2.7 Code ausschließlich für Programmieraufgaben vor.

Wie viel kostet Kimi K2.7 Code?

Die API-Preise betragen 0,95 US-Dollar pro Million Eingabetokens und 4,00 US-Dollar pro Million Ausgabetokens; Cache-Hits kosten etwa 0,19 US-Dollar pro Million Eingabetokens. Das entspricht etwa einem Sechsfachen der Kostenersparnis gegenüber Claude Opus 4.8 bei Ausgabetokens und einer Einsparung von über 12-fach im Vergleich zu Claude Fable 5.

Kann ich Kimi K2.7 Code lokal ausführen?

Ja, die Gewichte sind unter einer modifizierten MIT-Lizenz öffentlich zugänglich. Allerdings handelt es sich um ein Modell mit einer Billion Parametern, das selbst im nativen int4-Format rund 595 GB Speicherplatz belegt. Ein realistischer Produktionsbetrieb erfordert etwa acht GPUs der 80-GB-Klasse (ca. 640 GB VRAM) – grob äquivalent zu fünf H200-GPUs. Ein System mit vier RTX-4090-GPUs kann das Modell nur mit CPU-/RAM-Offload, reduzierter Kontextlänge und geringerer Durchsatzleistung betreiben; auf keiner einzelnen Consumer-GPU lässt sich das vollständige Modell halten.

Wie viel besser ist K2.7 Code im Vergleich zu K2.6?

Moonshot berichtet Verbesserungen von +21,8 % beim Kimi-Code-Bench v2, +11,0 % beim Program-Bench, +31,5 % beim MLS-Bench-Lite und +11,4 % beim MCPMark-Verified sowie einer Reduktion der pro Aufgabe benötigten Denk-Tokens um etwa 30 %. Diese Angaben stammen vom Hersteller und basieren auf Moonshots eigenen Benchmarks – sie sind daher lediglich als Richtwerte zu verstehen.

Unterstützt Kimi K2.7 Code Bilder?

Ja. Es enthält einen visuellen Encoder namens MoonViT mit 400 Millionen Parametern und akzeptiert Text-, Bild- und Videoeingaben. Damit kann es beispielsweise Screenshots, Diagramme oder kurze Videoaufnahmen verarbeiten – eine Seltenheit bei einem auf Programmierung fokussierten offenen Modell.

Ist Kimi K2.7 Code besser als GPT-5.5 für Programmieraufgaben?

Nein, zumindest nicht bei den meisten Benchmarks. GPT-5.5 liegt beim Program-Bench (69,1 gegenüber 53,6) und beim MCPMark-Verified (92,9 gegenüber 81,1) vorne. Der Vorteil von K2.7 Code liegt in den Kosten: Die deutliche Preisdifferenz ermöglicht es, das Modell bei gleichem Budget deutlich häufiger einzusetzen – was bei hochvolumigen agentenbasierten Arbeitslasten durchaus zum Erfolg führen kann.

Was ist der sogenannte „Denkmodus“ – und kann ich ihn deaktivieren?

Der Denkmodus ist der interne Schlussfolgerungsprozess des Modells vor der eigentlichen Antwort. Bei K2.7 Code ist dieser Modus zwingend vorgeschrieben – es gibt keinen alternativen, nicht-denkbasierten Modus, und die API gibt einen Fehler zurück, falls versucht wird, ihn zu deaktivieren. Der Effizienzvorteil besteht darin, dass das Modell nun Antworten mit rund 30 % weniger Denk-Tokens als K2.6 erreicht.

Fazit

Kimi K2.7 Code ist eine präzise, gezielt schmale Veröffentlichung: ein offengewichtiges, 1-Billion-Parameter-Programmier-Agentenmodell, das eine reale Leistungslücke gegenüber GPT-5.5 gegen einen kaum zu übertreffenden Preis und eine Lizenz eintauscht, die Ihnen uneingeschränktes Eigentum am Modell sichert. Es wird nicht die Spitzenpositionen in Rankings einnehmen, und der zwingende Denkmodus sowie die Anforderung an Rechenzentrumshardware – allein die Gewichte beanspruchen selbst im nativen 4-Bit-Format über ein halbes Terabyte – machen es nicht für jedermann geeignet. Doch für Teams, die hochvolumige agentenbasierte Programmieraufgaben bewältigen müssen, bei denen sich die Kosten pro Aufgabe rasch summieren, stellt es eine der glaubwürdigsten Wert-orientierten Lösungen des Jahres 2026 dar. Nutzen Sie die API, sofern Sie nicht über die erforderlichen GPUs verfügen oder einen triftigen Grund für einen Eigenbetrieb haben; testen Sie das Modell zunächst an Ihren eigenen Repositories, bevor Sie sich endgültig festlegen; und behalten Sie K2.6 für die Chat-Aufgaben, für die K2.7 Code nie gedacht war.

Scroll to Top