Is Kimi K2.7 Code a chatbot or a coding model?

It is a coding-specialized model built for agentic software tasks — planning, editing files, running tools, and debugging across many steps. It is not positioned as a general chatbot. Moonshot recommends the older K2.6 for general conversation and reserves K2.7 Code for coding work.

How much does Kimi K2.7 Code cost?

The API lists $0.95 per million input tokens and $4.00 per million output tokens, with cache hits around $0.19 per million input. That is roughly 6x cheaper than Claude Opus 4.8 on output and over 12x cheaper than Claude Fable 5.

Can I run Kimi K2.7 Code locally?

Yes, the weights are public under a Modified MIT license, but it is a 1T-parameter model that takes about 595 GB on disk even in its native int4 format. A realistic production setup needs roughly 8 80GB-class GPUs (~640 GB VRAM) — about five H200s is a rough equivalent. A 4x RTX 4090 rig can run it only with CPU/RAM offload, reduced context, and lower throughput, and no single consumer GPU will hold the full model.

How much better is K2.7 Code than K2.6?

Moonshot reports +21.8% on Kimi Code Bench v2, +11.0% on Program Bench, +31.5% on MLS Bench Lite, and +11.4% on MCPMark Verified, plus about 30% fewer reasoning tokens per task. These are vendor-reported figures on Moonshot's own benchmarks, so treat them as directional.

Does Kimi K2.7 Code support images?

Yes. It includes a 400M-parameter MoonViT vision encoder and accepts text, image, and video input. That lets it work from screenshots, diagrams, or short recordings — unusual for a coding-focused open model.

Is Kimi K2.7 Code better than GPT-5.5 for coding?

Not on most benchmarks. GPT-5.5 leads on Program Bench (69.1 vs 53.6) and MCPMark Verified (92.9 vs 81.1). K2.7 Code's advantage is cost: the price gap means you can run it far more often for the same budget, which can win on high-volume agentic workloads.

What is "thinking mode" and can I turn it off?

Thinking mode is the model's internal reasoning step before it answers. In K2.7 Code it is mandatory — there is no non-thinking mode, and the API returns an error if you try to disable it. The efficiency claim is that it now reaches answers using ~30% fewer reasoning tokens than K2.6.

Kimi K2.7 Code erklärt: Moonshots 1-Billionen-Parameter-Open-Weight-Coding-Modell

Moonshot AI veröffentlichte Kimi K2.7 Code am 12. Juni 2026 – und der Name ist diesmal besonders aussagekräftig. Dies ist kein neuer allgemeiner Chatbot namens ‚Kimi 2.7‘, sondern ein ausschließlich auf Programmierung spezialisiertes Modell: ein Mixture-of-Experts-System mit einer Billion Parameter, das gezielt darauf ausgelegt ist, Softwareprojekte zu planen, Dateien zu bearbeiten, Tools auszuführen und komplexe, mehrstufige Softwareaufgaben zu bewältigen. Für gewöhnliche Unterhaltungen verweist Moonshot weiterhin auf das ältere Modell K2.6.

Der Fokus liegt auf Effizienz: K2.7 Code erzielt laut Herstellerangaben höhere Coding-Scores als K2.6, verbraucht jedoch rund 30 % weniger Reasoning-Tokens. Der Preis liegt bei 0,95 USD pro Million Eingabetokens und 4,00 USD pro Million Ausgabetokens – nur ein Bruchteil dessen, was führende geschlossene Modelle verlangen. Die Gewichte sind unter einer modifizierten MIT-Lizenz öffentlich zugänglich, sodass Sie das Modell auch selbst betreiben können – vorausgesetzt, Sie verfügen über die erforderliche Hardware für ein Modell, das selbst in seiner nativen 4-Bit-Darstellung immer noch etwa 595 GB Speicherplatz belegt. Im Folgenden erfahren Sie, was real ist, was vom Hersteller angegeben wird und wo sich das Modell einordnet.

Wichtigste Erkenntnisse

Exklusiv für Programmierung, kein Chatbot. ‚K2.7 Code‘ ist ein dediziertes agentenbasiertes Coding-Modell; für allgemeine Anwendungen empfiehlt Moonshot weiterhin K2.6.
1-Billion-Parameter-MoE mit 32 Milliarden aktiven Parametern. 384 Experten (8 geroutet + 1 gemeinsam genutzt), 61 Schichten, Kontextfenster von 256K, Vokabularumfang von 160K, MLA-Attention sowie ein 400-Millionen-Parameter-MoonViT-Vision-Encoder für Bild- und Videoeingaben.
Denken ist zwingend erforderlich. Es gibt keinen Modus ohne Denken; das Deaktivieren führt zu einem API-Fehler.
Vom Hersteller angegebene Verbesserungen gegenüber K2.6: +21,8 % bei Kimi Code Bench v2, +11,0 % bei Program Bench, +31,5 % bei MLS Bench Lite – bei rund 30 % weniger Reasoning-Tokens.
Aggressive Preisgestaltung: 0,95 USD pro Million Eingabetokens / 4,00 USD pro Million Ausgabetokens; bei Cache-Hits nahe 0,19 USD – etwa sechsmal günstiger als Claude Opus 4.8 und bis zu zwölfmal günstiger als Claude Fable 5 bei Ausgabetokens.
Offene Gewichte, hoher Hardwareaufwand. Modifizierte MIT-Lizenz auf Hugging Face; die Gewichte liegen nativ im int4-Format vor (~595 GB). Für eine realistische lokale Inferenz werden nach wie vor etwa acht GPUs der 80-GB-Klasse benötigt (~640 GB VRAM).

Was Kimi K2.7 Code tatsächlich ist

K2.7 Code ist die jüngste Ergänzung der rasant wachsenden Kimi-Reihe von Moonshot und das erste Modell, das das Unternehmen gezielt als auf Programmierung spezialisierte Version statt als allgemeines Modell mit einer zusätzlichen Coding-Funktion herausgebracht hat. Das Designziel ist langfristiges Software-Engineering – also genau die Art von Aufgaben, bei denen ein Agent ein Repository liest, eine Änderung plant, mehrere Dateien bearbeitet, einen Build durchführt, den Fehler liest und iterativ weiterarbeitet. Es wurde entwickelt, um zu handeln – nicht um zu unterhalten.

Diese Fokussierung zeigt sich bereits in den Standardeinstellungen: Das Modell läuft stets im ‚Denkmodus‘ – dieser lässt sich nicht deaktivieren, und die API lehnt Anfragen ab, die dies versuchen. Die Annahme dahinter ist, dass für agentenbasierte Programmieraufgaben die Reasoning-Traces ihren Preis wert sind und dass die Effizienzgewinne von K2.7 diese Kosten im Rahmen halten. Falls Sie ein Modell benötigen, das lediglich schnell und kostengünstig auf einfache Fragen antwortet, empfiehlt Moonshot ausdrücklich stattdessen K2.6. Den gesamten Modellfamilienkontext behandeln wir in unserem Moonshot-Kimi-Überblick.

Technische Daten und Architektur

Die Architektur basiert auf einem sparsamen MoE (Mixture of Experts). Von den insgesamt einer Billion Parameter werden pro Token nur etwa 32 Milliarden aktiviert – dadurch bleiben Rechenkosten und Latenz weit unter dem Niveau, das ein dichtes 1-Billion-Parameter-Modell implizieren würde.

Spezifikation	Kimi K2.7 Code
Gesamtanzahl Parameter	Eine Billion (MoE)
Aktiv pro Token	ca. 32 Milliarden
Experten	384 (8 geroutet + 1 gemeinsam genutzt)
Schichten	61 (davon 1 dicht)
Kontextfenster	256K Tokens (262.144)
Vokabular	160K
Attention	MLA (Multi-Head Latent Attention)
Modalität	Text, Bild, Video (über 400-Mio.-Parameter-MoonViT-Encoder)
Native Präzision	INT4 (MoE-Gewichte), BF16-Attention
Denkmodus	Obligatorisch (kann nicht deaktiviert werden)
Lizenz	Modifizierte MIT-Lizenz (offene Gewichte)

Die native multimodale Eingabe ist ein echter Unterscheidungsfaktor für ein Codierungsmodell. Sie können ihm einen Screenshot einer fehlerhaften Benutzeroberfläche, ein Diagramm oder eine kurze Bildschirmaufnahme zusammen mit dem Code übergeben. Die meisten auf Programmierung ausgerichteten offenen Modelle verarbeiten ausschließlich Text – diese Fähigkeit erweitert daher die praktischen Anwendungsfälle deutlich: etwa das Debugging anhand eines Screenshots oder die Implementierung anhand eines Mockups – und zwar ohne separate Vision-Pipeline.

Die Benchmark-Ergebnisse – ehrlich betrachtet

Die von Moonshot angegebenen Leistungsdaten vergleichen K2.7 Code mit K2.6 anhand interner Benchmark-Suiten. Diese Angaben stammen vom Hersteller und basieren auf Moonshots eigenen Benchmarks; sie sind daher als Richtwerte zu verstehen, nicht als neutrale Wahrheit.

Benchmark (vom Hersteller angegeben)	K2.6	K2.7 Code	Veränderung
Kimi Code Bench v2	50.9	62.0	+21.8%
Program Bench	48.3	53.6	+11.0%
MLS Bench Lite	26.7	35.1	+31.5%
MCPMark Verified	72.8	81.1	+11.4%
Verwendete Denk-Token	Basiswert	ca. 30 % weniger	effizienter

Bei Agent-Tool-Benchmarks (MCP Atlas, MCPMark Verified, Claw 24/7 von Kimi) berichtet Moonshot Verbesserungen von rund 10 % gegenüber K2.6 – geringer, aber in die richtige Richtung.

Unabhängige Daten liegen zunehmend vor. Artificial Analysis, das eigene Messungen durchführt statt Herstellerangaben zu übernehmen, bewertet K2.7 Code mit 42 Punkten im zusammengesetzten Intelligence Index und platziert es damit unter den von ihm verfolgten Open-Weight-Modellen an etwa sechster Stelle. Die Ausgabegeschwindigkeit liegt bei ca. 55,8 Tokens pro Sekunde, die Zeit bis zum ersten Token beträgt etwa 2,25 Sekunden – gemessen über Moonshots Standard-API. Dies ist respektabel, aber kein Rekordwert; zudem bedeutet der obligatorische Denkmodus, dass die tatsächliche Latenz bei kompletten Agent-Aufgaben höher ist, als die Zeit bis zum ersten Token vermuten lässt. (Moonshot bietet zudem einen separaten Hochgeschwindigkeits-Endpunkt an, der deutlich schneller läuft; hier jedoch wird ausschließlich das Referenzmodell getestet.)

Der nützlichste unabhängige Vergleich stammt aus direkten Codierungs-Tests. Bei MCPMark Verified, einem Agent-Tool-Benchmark, erreicht K2.7 Code 81,1 Punkte und liegt damit knapp vor Claude Opus 4.8 mit 76,4 – GPT-5.5 führt jedoch deutlich mit 92,9 Punkten. Bei Moonshots eigenem Program Bench liegt GPT-5.5 mit 69,1 klar vor K2.7 Code mit 53,6. Die ehrliche Zusammenfassung lautet: K2.7 Code ist bei einigen agentic-tool-basierten Aufgaben mit Spitzenmodellen konkurrenzfähig, bei anderen deutlich zurück. Es ist nicht der neue Stand der Technik. Sein Vorteil liegt allein im Preis.

Preisgestaltung und Wert

Hier macht K2.7 Code auf sich aufmerksam. Folgende veröffentlichte API-Preise stehen dem aktuellen geschlossenen Spitzenmodell gegenüber – jeweils pro Million Tokens.

Modell	Eingabe	Ausgabe
Kimi K2.7 Code	$0.95	$4.00
Claude Opus 4.8	$5.00	$25.00
GPT-5.5	$5.00	$30.00
Claude Fable 5	$10.00	$50.00

Bei der Ausgabe ist K2.7 Code etwa sechsmal günstiger als Opus 4.8 und mehr als zwölfmal günstiger als Fable 5. Cache-Hits kosten etwa 0,19 USD pro Million Eingabetokens – ein entscheidender Faktor für Agenten, die dieselben Dateien wiederholt lesen. In Verbindung mit einer um ~30 % geringeren Anzahl an Denk-Tokens pro Aufgabe vergrößert sich die effektive Kostenlücke noch weiter.

Der Trade-off ist klar: geringere Rohleistung pro Aufruf, doch mit demselben Budget lassen sich deutlich mehr Aufrufe tätigen. Für hochvolumige Agent-Arbeitslasten – CI-Bots, Massenrefactorings, Testgenerierung, automatisierte Triage – kann es sich lohnen, K2.7 Code mehrfach auszuführen und das beste Ergebnis zu wählen, statt einen einzigen teuren Aufruf an ein Spitzenmodell zu tätigen. Für eine einzelne, subtile architektonische Entscheidung mag die höhere Trefferquote des Spitzenmodells nach wie vor den Aufpreis rechtfertigen. Falls Sie Optionen im gesamten Feld abwägen, liefert unser Überblick über die beste KI-Coding-Assistenten setzt dies in Kontext.

Stärken

Offene Gewichte unter einer permissiven modifizierten MIT-Lizenz
Sehr niedrige Kosten pro Token inklusive günstiger Cache-Hits
Native Bild- und Videoeingabe – selten bei Codierungsmodellen
Ein Kontextfenster von 256K eignet sich für agentenbasierte Aufgaben im gesamten Repository
Eine Reduktion der Denk-Token um ~30 % senkt die Agent-Kosten

Einschränkungen

Liegt bei mehreren Codierungsbenchmarks hinter GPT-5.5 zurück
Der obligatorische Denkmodus erhöht die Latenz und schließt schnelle, nicht-denkbasierte Aufrufe aus
Lokales Hosting erfordert Grafikprozessoren der Rechenzentrumsklasse
Die angegebenen Leistungssteigerungen stammen vom Hersteller und wurden an internen Benchmark-Suiten ermittelt
Nicht für allgemeine Chat-Anwendungen empfohlen – bewusst auf einen engen Anwendungsbereich ausgelegt

Wie man es nutzt: API versus lokaler Betrieb der Gewichte

Der einfachste Weg ist die API. K2.7 Code ist über die Kimi-API von Moonshot sowie über die Kimi Code CLI verfügbar und unterstützt die gängigen Tool-Calling-Konventionen – so lässt es sich problemlos in bestehende Agent-Umgebungen integrieren. Wenn Sie auf Agent-Frameworks aufbauen, finden Sie in unserer Anleitung zu den besten AI-Agent-Frameworks Hinweise, wo ein Modell wie dieses am besten eingesetzt wird.

Das Ausführen der offenen Gewichte ist dagegen eine andere Geschichte – hier gilt es, realistisch zu bleiben. Wie bereits Kimi K2 Thinking vor ihm wird K2.7 Code vorquantisiert im nativen INT4-Format ausgeliefert: Die MoE-Gewichte sind mittels quantisierungsbewusstem Training auf 4 Bit komprimiert, während die Attention in BF16 bleibt. Daher benötigt die Hugging-Face-Version auf Festplatte etwa 595 GB statt der rund 2 TB, die eine vollständige BF16-Darstellung eines Modells mit einer Billion Parametern erfordern würde. (Eine vollpräzise BF16-Version wird von Moonshot nicht bereitgestellt.) Das Modell lässt sich mit vLLM, SGLang und KTransformers betreiben.

Einrichtung	Realität
ca. 8× GPUs der 80-GB-Klasse (≈640 GB VRAM), native INT4	Empfohlene Produktionskonfiguration für vollständigen Kontext (≈5× H200 entspricht ungefähr dieser Leistung)
4× RTX 4090 (96 GB), mit CPU-/RAM-Offload	Möglich, aber Kontext auf ~64K–128K begrenzt und deutlich geringere Durchsatzrate
Einzelne Consumer-GPU	Für das vollständige Modell nicht tragfähig

Kurz gesagt: ‚Offene Gewichte‘ bedeutet nicht ‚lässt sich auf Ihrem Laptop ausführen‘. Selbst im nativen 4-Bit-Format überschreiten die Gewichte allein mehr als eine halbe Terabyte – für die meisten Teams ist daher die API der sinnvolle Weg, während Self-Hosting nur für Organisationen mit erheblichen GPU-Budgets oder strengen Anforderungen an die Datenhoheit infrage kommt. Falls lokale Ausführung zwingend erforderlich ist, sollten Sie kleinere Alternativen in unserem beste lokales LLM Leitfaden für Codierungsmodelle prüfen, der Modelle enthält, die auf realistischer Hardware lauffähig sind.

Vergleich mit K2.6 und Konkurrenten

Im Vergleich zu K2.6 ist K2.7 Code das bessere Werkzeug für langfristige, mehrstufige Codierungsagenten – und für alles andere das schlechtere. Moonshots eigene Empfehlung lautet, K2.6 für allgemeine Aufgaben beizubehalten. Diese Aufteilung ist bewusst: Ein Modell optimiert für agentenbasiertes Programmieren, das andere für Breite.

Im Vergleich zum breiteren offenen Feld ist der offensichtliche Rivale für 2026 Zhipus GLM-5.2, ein weiteres großes offenes Modell, das dieselbe Nische für Code-Agenten anstrebt; wir analysieren dieses Modell in unserem GLM-5.2-Explaner, und stellen die beiden Modelle in GLM-5.2 vs. Kimi K2.7 für Programmieraufgabengegeneinander. Ein fairer direkter Vergleich ist nach wie vor schwer zu bewerten: Zhipu veröffentlichte GLM-5.2 ohne offizielle Benchmark-Werte, und neutrale Dritte haben bislang noch keine direkt vergleichbaren Agenten-Programmier-Benchmark-Ergebnisse für beide Modelle vorgelegt – jeder heutige Anspruch auf einen „Gewinner“ wäre verfrüht. Im Vergleich zu den geschlossenen Spitzenmodellen stellt K2.7 Code eine Wert-orientierte Lösung dar, nicht jedoch einen Führer in Sachen Funktionsumfang: Man akzeptiert eine messbare Leistungslücke gegenüber GPT-5.5, im Austausch dafür erhält man offene Gewichte und einen Preis, der um eine Größenordnung niedriger liegen kann.

Häufig gestellte Fragen (FAQ)

Ist Kimi K2.7 Code ein Chatbot oder ein Programmiermodell?

Es handelt sich um ein auf Programmierung spezialisiertes Modell, das für agentenbasierte Softwareaufgaben konzipiert ist – etwa Planung, Bearbeitung von Dateien, Ausführung von Tools und Debugging über mehrere Schritte hinweg. Es wird nicht als allgemeiner Chatbot positioniert. Moonshot empfiehlt das ältere Modell K2.6 für allgemeine Unterhaltungen und behält K2.7 Code ausschließlich für Programmieraufgaben vor.

Wie viel kostet Kimi K2.7 Code?

Die API-Preise betragen 0,95 US-Dollar pro Million Eingabetokens und 4,00 US-Dollar pro Million Ausgabetokens; Cache-Hits kosten etwa 0,19 US-Dollar pro Million Eingabetokens. Das entspricht etwa einem Sechsfachen der Kostenersparnis gegenüber Claude Opus 4.8 bei Ausgabetokens und einer Einsparung von über 12-fach im Vergleich zu Claude Fable 5.

Kann ich Kimi K2.7 Code lokal ausführen?

Ja, die Gewichte sind unter einer modifizierten MIT-Lizenz öffentlich zugänglich. Allerdings handelt es sich um ein Modell mit einer Billion Parametern, das selbst im nativen int4-Format rund 595 GB Speicherplatz belegt. Ein realistischer Produktionsbetrieb erfordert etwa acht GPUs der 80-GB-Klasse (ca. 640 GB VRAM) – grob äquivalent zu fünf H200-GPUs. Ein System mit vier RTX-4090-GPUs kann das Modell nur mit CPU-/RAM-Offload, reduzierter Kontextlänge und geringerer Durchsatzleistung betreiben; auf keiner einzelnen Consumer-GPU lässt sich das vollständige Modell halten.

Wie viel besser ist K2.7 Code im Vergleich zu K2.6?

Moonshot berichtet Verbesserungen von +21,8 % beim Kimi-Code-Bench v2, +11,0 % beim Program-Bench, +31,5 % beim MLS-Bench-Lite und +11,4 % beim MCPMark-Verified sowie einer Reduktion der pro Aufgabe benötigten Denk-Tokens um etwa 30 %. Diese Angaben stammen vom Hersteller und basieren auf Moonshots eigenen Benchmarks – sie sind daher lediglich als Richtwerte zu verstehen.

Unterstützt Kimi K2.7 Code Bilder?

Ja. Es enthält einen visuellen Encoder namens MoonViT mit 400 Millionen Parametern und akzeptiert Text-, Bild- und Videoeingaben. Damit kann es beispielsweise Screenshots, Diagramme oder kurze Videoaufnahmen verarbeiten – eine Seltenheit bei einem auf Programmierung fokussierten offenen Modell.

Ist Kimi K2.7 Code besser als GPT-5.5 für Programmieraufgaben?

Nein, zumindest nicht bei den meisten Benchmarks. GPT-5.5 liegt beim Program-Bench (69,1 gegenüber 53,6) und beim MCPMark-Verified (92,9 gegenüber 81,1) vorne. Der Vorteil von K2.7 Code liegt in den Kosten: Die deutliche Preisdifferenz ermöglicht es, das Modell bei gleichem Budget deutlich häufiger einzusetzen – was bei hochvolumigen agentenbasierten Arbeitslasten durchaus zum Erfolg führen kann.

Was ist der sogenannte „Denkmodus“ – und kann ich ihn deaktivieren?

Der Denkmodus ist der interne Schlussfolgerungsprozess des Modells vor der eigentlichen Antwort. Bei K2.7 Code ist dieser Modus zwingend vorgeschrieben – es gibt keinen alternativen, nicht-denkbasierten Modus, und die API gibt einen Fehler zurück, falls versucht wird, ihn zu deaktivieren. Der Effizienzvorteil besteht darin, dass das Modell nun Antworten mit rund 30 % weniger Denk-Tokens als K2.6 erreicht.

Fazit

Kimi K2.7 Code ist eine präzise, gezielt schmale Veröffentlichung: ein offengewichtiges, 1-Billion-Parameter-Programmier-Agentenmodell, das eine reale Leistungslücke gegenüber GPT-5.5 gegen einen kaum zu übertreffenden Preis und eine Lizenz eintauscht, die Ihnen uneingeschränktes Eigentum am Modell sichert. Es wird nicht die Spitzenpositionen in Rankings einnehmen, und der zwingende Denkmodus sowie die Anforderung an Rechenzentrumshardware – allein die Gewichte beanspruchen selbst im nativen 4-Bit-Format über ein halbes Terabyte – machen es nicht für jedermann geeignet. Doch für Teams, die hochvolumige agentenbasierte Programmieraufgaben bewältigen müssen, bei denen sich die Kosten pro Aufgabe rasch summieren, stellt es eine der glaubwürdigsten Wert-orientierten Lösungen des Jahres 2026 dar. Nutzen Sie die API, sofern Sie nicht über die erforderlichen GPUs verfügen oder einen triftigen Grund für einen Eigenbetrieb haben; testen Sie das Modell zunächst an Ihren eigenen Repositories, bevor Sie sich endgültig festlegen; und behalten Sie K2.6 für die Chat-Aufgaben, für die K2.7 Code nie gedacht war.