Moonshot AI ha rilasciato Kimi K2.7 Code il 12 giugno 2026, e il nome è particolarmente significativo. Questo non è un nuovo chatbot generico chiamato «Kimi 2.7», bensì un modello specializzato esclusivamente nella programmazione: un sistema Mixture-of-Experts da 1 trilione di parametri ottimizzato specificamente per pianificare modifiche, modificare file, eseguire strumenti ed elaborare compiti software complessi e multi-step. Per conversazioni generiche, Moonshot continua a consigliare l’uso della versione precedente K2.6.
L’obiettivo dichiarato è l’efficienza. K2.7 Code dichiara punteggi superiori in ambito programmazione rispetto a K2.6, consumando circa il 30% in meno di token di ragionamento; il prezzo è fissato a 0,95 USD per milione di token in ingresso e 4,00 USD per milione di token in uscita. Si tratta di una frazione dei costi applicati dai modelli chiusi di ultima generazione. I pesi del modello sono pubblici sotto licenza MIT modificata, quindi è possibile eseguirlo autonomamente — purché si disponga dell’hardware necessario per un modello che occupa circa 595 GB su disco anche nella sua forma nativa a 4 bit. Di seguito analizziamo cosa è reale, cosa è riportato dal produttore e dove questo modello si colloca nel panorama attuale.
Punti chiave
- Esclusivamente per la programmazione, non un chatbot. «K2.7 Code» è un modello dedicato per attività agentiche legate alla programmazione; Moonshot raccomanda invece K2.6 per utilizzi generali.
- MoE da 1 trilione di parametri, con 32 miliardi attivi. 384 esperti (8 instradati + 1 condiviso), 61 livelli, contesto da 256K token, vocabolario da 160K token, attenzione MLA e un encoder visivo MoonViT da 400 milioni di parametri per input immagine e video.
- Il ragionamento è obbligatorio. Non esiste una modalità senza ragionamento; disabilitarlo genera un errore API.
- Miglioramenti dichiarati dal produttore rispetto a K2.6: +21,8% su Kimi Code Bench v2, +11,0% su Program Bench, +31,5% su MLS Bench Lite, con circa il 30% in meno di token di ragionamento.
- Prezzi aggressivi: 0,95 USD per milione di token in ingresso / 4,00 USD per milione di token in uscita, con costi ridotti a circa 0,19 USD per milione in caso di hit nella cache — circa 6 volte inferiori a quelli di Claude Opus 4.8 e fino a circa 12 volte inferiori a quelli di Claude Fable 5 in uscita.
- Pesi aperti, hardware impegnativo. Licenza MIT modificata su Hugging Face; i pesi sono forniti nativamente in formato int4 (~595 GB); per un’inferenza locale realistica sono comunque necessarie circa 8 GPU di classe 80 GB (~640 GB di VRAM).
Che cos’è realmente Kimi K2.7 Code
K2.7 Code rappresenta l’ultima evoluzione della linea Kimi di Moonshot, in rapida evoluzione, ed è il primo modello che l’azienda ha distinto come versione specializzata nella programmazione, anziché come modello generico dotato di una modalità per la programmazione. L’obiettivo progettuale è l’ingegneria del software su orizzonti temporali estesi: il tipo di attività in cui un agente legge un repository, pianifica una modifica, modifica diversi file, esegue una build, interpreta l’errore restituito e itera fino al risultato desiderato. È stato progettato per agire, non per conversare.
Questa focalizzazione emerge chiaramente dalle impostazioni predefinite. Il modello viene sempre eseguito con la funzione «ragionamento» abilitata — non è possibile disattivarla, e l’API rifiuta esplicitamente le richieste che tentano di farlo. L’ipotesi è che, per attività agentiche legate alla programmazione, i tracciati di ragionamento abbiano un valore superiore al loro costo, e che i miglioramenti in termini di efficienza di K2.7 mantengano tale costo sotto controllo. Se invece si cerca un modello in grado di rispondere rapidamente e a basso costo a domande semplici, Moonshot stesso suggerisce di utilizzare K2.6. Approfondiamo l’intera famiglia nel nostro approfondimento sui modelli Kimi di Moonshot.
Specifiche e architettura
L’architettura è una MoE sparsa. Dei 1000 miliardi di parametri totali, solo circa 32 miliardi vengono attivati per ogni token, consentendo così di mantenere i costi computazionali e la latenza di inferenza molto inferiori a quelli che un modello denso da 1000 miliardi di parametri comporterebbe.
| Specifiche | Kimi K2.7 Code |
|---|---|
| Parametri totali | 1 trilione (MoE) |
| Parametri attivi per token | ~32 miliardi |
| Esperti | 384 (8 instradati + 1 condiviso) |
| Livelli | 61 (1 denso) |
| Finestra contestuale | 256K token (262.144) |
| Vocabolario | 160K |
| Attenzione | MLA (Attenzione latente multi-testa) |
| Modalità | Testo, immagine, video (tramite l’encoder MoonViT da 400 milioni di parametri) |
| Precisione nativa | INT4 (pesi MoE), attenzione in BF16 |
| Modalità di ragionamento | Obbligatoria (non disabilitabile) |
| Licenza | Licenza MIT modificata (pesi aperti) |
L’input multimodale nativo rappresenta una vera differenziazione per un modello specializzato nella programmazione. Puoi fornirgli uno screenshot di un’interfaccia difettosa, un diagramma o una breve registrazione dello schermo insieme al codice. La maggior parte dei modelli aperti focalizzati sulla programmazione accetta solo testo, quindi questa caratteristica amplia concretamente gli scenari d’uso — ad esempio il debug partendo da uno screenshot o l’implementazione a partire da un mockup — senza dover ricorrere a una pipeline visiva separata.
I risultati nei benchmark, interpretati onestamente
I dati principali diffusi da Moonshot confrontano K2.7 Code con K2.6 utilizzando suite di benchmark interne. Si tratta di risultati dichiarati dal fornitore e basati su benchmark proprietari di Moonshot: vanno pertanto considerati indicativi, non come verità oggettiva e neutrale.
| Benchmark (dichiarato dal fornitore) | K2.6 | K2.7 Code | Variazione |
|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 | +21.8% |
| Program Bench | 48.3 | 53.6 | +11.0% |
| MLS Bench Lite | 26.7 | 35.1 | +31.5% |
| MCPMark Verified | 72.8 | 81.1 | +11.4% |
| Token di ragionamento utilizzati | valore di riferimento | circa il 30% in meno | più efficiente |
Nei benchmark per agenti con strumenti (MCP Atlas, MCPMark Verified, Claw 24/7 di Kimi), Moonshot riporta miglioramenti di circa il 10% rispetto a K2.6: un guadagno più contenuto, ma comunque nella direzione corretta.
Stanno iniziando ad arrivare dati indipendenti. Artificial Analysis, che esegue misurazioni autonome anziché ripubblicare le affermazioni dei fornitori, colloca K2.7 Code a 42 nel proprio indice composito di intelligenza, piazzandolo intorno alla sesta posizione tra i modelli a pesi aperti che monitora. La velocità di generazione è di circa 55,8 token al secondo, con un tempo medio di circa 2,25 secondi fino al primo token, misurato sull’API standard di Moonshot: un risultato rispettabile, ma non record; inoltre, la modalità di ragionamento obbligatoria implica che la latenza reale in un compito completo di agente sia superiore a quella indicata dal tempo fino al primo token. (Moonshot offre anche un endpoint ad alta velocità molto più rapido, ma il modello preso in esame nei benchmark è quello principale.)
Il confronto terzo più utile proviene da test di programmazione testa a testa. Su MCPMark Verified, un benchmark per agenti con strumenti, K2.7 Code ottiene 81,1, superando di poco Claude Opus 4.8 (76,4), mentre GPT-5.5 si attesta ben più in alto, a 92,9. Su Program Bench, benchmark interno di Moonshot, GPT-5.5 guida con 69,1 contro 53,6 di K2.7 Code. In sintesi onesta: K2.7 Code è competitivo con i modelli di frontiera su alcuni compiti di tipo agente-strumento, ma chiaramente inferiore su altri. Non rappresenta il nuovo stato dell’arte: il suo valore risiede principalmente nel costo.
Prezzi e valore
È qui che K2.7 Code fa rumore. Di seguito i prezzi pubblicati per l’API, confrontati con quelli attuali dei modelli chiusi di frontiera, per ogni milione di token.
| Modello | Input | Output |
|---|---|---|
| Kimi K2.7 Code | $0.95 | $4.00 |
| Claude Opus 4.8 | $5.00 | $25.00 |
| GPT-5.5 | $5.00 | $30.00 |
| Claude Fable 5 | $10.00 | $50.00 |
In termini di output, K2.7 Code costa circa 6 volte meno di Opus 4.8 e oltre 12 volte meno di Fable 5. I cache hit costano circa 0,19 dollari per milione di token in input, un dettaglio cruciale per gli agenti che rileggono ripetutamente gli stessi file. Combinato alla riduzione di circa il 30% dei token di ragionamento per compito, questo allarga ulteriormente il divario effettivo sui costi.
Il compromesso è chiaro: minore capacità grezza per singola chiamata, ma lo stesso budget permette molte più chiamate. Per carichi di lavoro ad alto volume gestiti da agenti — bot CI, refactoring massivi, generazione automatica di test, triage automatizzato — eseguire K2.7 Code più volte e selezionare il risultato migliore può essere più conveniente di una singola chiamata costosa a un modello di frontiera. Per decisioni architetturali sottili e puntuali, tuttavia, il tasso di successo superiore del modello di frontiera potrebbe giustificare ancora il sovrapprezzo. Se stai valutando diverse opzioni sul mercato, il nostro approfondimento sui migliori assistenti IA per la programmazione modelli di intelligenza artificiale più promettenti
Punti di forza
- Pesi aperti sotto una permissiva licenza MIT modificata
- Costo estremamente basso per token, con cache hit economicissimi
- Input nativo per immagini e video, raro per un modello di programmazione
- Contesto da 256K token adatto a compiti di tipo agente su interi repository
- Riduzione di circa il 30% dei token di ragionamento riduce i costi operativi degli agenti
Limitazioni
- Inferiore a GPT-5.5 su diversi benchmark di programmazione
- La modalità di ragionamento obbligatoria aggiunge latenza ed esclude chiamate veloci senza ragionamento
- L’hosting locale richiede GPU di classe data center
- I miglioramenti principali sono dichiarati dal fornitore su suite interne
- Non raccomandato per chat generali — progettato specificamente per compiti mirati
Come utilizzarlo: API o esecuzione locale dei pesi
La via più semplice è l’API. K2.7 Code è disponibile tramite l’API Kimi di Moonshot e la sua CLI Kimi Code, e supporta le convenzioni standard per le chiamate a strumenti, integrandosi quindi agevolmente nella maggior parte delle configurazioni esistenti per agenti. Se sviluppi su framework per agenti, consulta la nostra guida ai migliori framework per agenti AI per capire dove inserire un modello come questo.
Eseguire i pesi aperti è un discorso diverso, e su questo punto occorre essere realistici. Come già avvenuto per Kimi K2 Thinking, K2.7 Code viene distribuito pre-quantizzato in int4 nativo — i pesi MoE sono memorizzati a 4 bit grazie a un addestramento consapevole della quantizzazione, mentre l’attenzione rimane in BF16 — motivo per cui la versione su Hugging Face occupa circa 595 GB su disco, anziché i circa 2 TB che richiederebbe una copia completa in BF16 di un modello da 1 trilione di parametri. (Moonshot non distribuisce una versione in precisione piena BF16.) Il servizio è supportato da vLLM, SGLang e KTransformers.
| Configurazione | Realtà |
|---|---|
| ~8 GPU di classe 80 GB (≈640 GB di VRAM), int4 nativo | Configurazione produttiva consigliata per contesto completo (≈5x H200 è un equivalente approssimativo) |
| 4 GPU RTX 4090 (96 GB), con offload su CPU/RAM | Possibile, ma contesto limitato a ~64K–128K e throughput molto inferiore |
| Singola GPU consumer | Non praticabile per il modello completo |
In sintesi, «pesi aperti» non significa «eseguibile sul tuo laptop». Anche in int4 nativo i pesi occupano oltre mezzo terabyte, quindi per la maggior parte dei team l’API resta la scelta più sensata, mentre l’auto-hosting è riservato a organizzazioni con budget GPU consistenti o esigenze stringenti di residenza dei dati. Se l’esecuzione locale è un requisito assoluto, valuta opzioni più piccole nel nostro migliore LLM locale approfondimento sui modelli per la programmazione che tratta modelli compatibili con hardware reale.
Confronto con K2.6 e modelli concorrenti
Rispetto a K2.6, K2.7 Code è lo strumento migliore per agenti di programmazione sostenuti e multi-step, ma peggiore per ogni altro tipo di compito — la stessa Moonshot raccomanda di continuare a usare K2.6 per attività generali. Questa suddivisione è intenzionale: un modello ottimizzato per la programmazione tramite agenti, l’altro per la versatilità.
Contro il più ampio panorama di modelli aperti, il rivale più ovvio del 2026 è il GLM-5.2 di Zhipu, un altro grande modello aperto che punta allo stesso nicchia degli agenti per la programmazione; ne forniamo un'analisi approfondita nella nostra spiegazione sul GLM-5.2e mettiamo a confronto i due modelli in GLM-5.2 vs Kimi K2.7 per la programmazione. Un confronto diretto equilibrato rimane ancora difficile da valutare: Zhipu ha rilasciato il GLM-5.2 senza pubblicare dati di benchmark ufficiali, e terze parti indipendenti non hanno ancora diffuso punteggi comparabili direttamente su compiti di programmazione basati su agenti per i due modelli; pertanto, qualsiasi dichiarazione su un "vincitore" sarebbe oggi prematura. Rispetto ai modelli chiusi di ultima generazione, K2.7 Code rappresenta una scelta orientata al valore, non un leader in termini di capacità: si accetta un divario misurabile rispetto a GPT-5.5 in cambio di pesi aperti e di un prezzo che può essere fino a dieci volte inferiore.
Domande frequenti
Kimi K2.7 Code è un chatbot o un modello specializzato nella programmazione?
È un modello specializzato nella programmazione, progettato per compiti software basati su agenti — pianificazione, modifica di file, esecuzione di strumenti e debug su più passaggi. Non è concepito come un chatbot generico. Moonshot raccomanda invece l’edizione precedente, K2.6, per conversazioni generali, riservando K2.7 Code esclusivamente ai lavori di programmazione.
Quanto costa Kimi K2.7 Code?
L’API prevede un costo di 0,95 dollari per ogni milione di token in input e 4,00 dollari per ogni milione di token in output, con i cache hit intorno a 0,19 dollari per ogni milione di token in input. Ciò lo rende circa 6 volte più economico di Claude Opus 4.8 per l’output e oltre 12 volte più economico di Claude Fable 5.
Posso eseguire Kimi K2.7 Code localmente?
Sì, i pesi sono pubblici sotto una licenza MIT modificata, ma si tratta di un modello da 1 trilione di parametri che occupa circa 595 GB su disco anche nel suo formato nativo int4. Una configurazione realistica per l’uso in produzione richiede all’incirca 8 GPU di classe 80 GB (~640 GB di VRAM) — equivalente approssimativamente a cinque H200. Un sistema con 4 GPU RTX 4090 può eseguirlo solo ricorrendo all’offload su CPU/RAM, riducendo il contesto e ottenendo una minore velocità di elaborazione; nessuna singola GPU consumer è in grado di caricare l’intero modello.
Quanto è migliore K2.7 Code rispetto a K2.6?
Moonshot riporta miglioramenti del +21,8% su Kimi Code Bench v2, del +11,0% su Program Bench, del +31,5% su MLS Bench Lite e del +11,4% su MCPMark Verified, oltre a un consumo di circa il 30% inferiore di token di ragionamento per compito. Si tratta di dati forniti dal produttore sui benchmark interni di Moonshot, quindi vanno considerati indicativi.
Kimi K2.7 Code supporta le immagini?
Sì. Include un encoder visivo MoonViT da 400 milioni di parametri e accetta in input testo, immagini e video. Ciò consente di operare partendo da screenshot, diagrammi o brevi registrazioni — caratteristica insolita per un modello aperto focalizzato sulla programmazione.
Kimi K2.7 Code è migliore di GPT-5.5 per la programmazione?
No, nella maggior parte dei benchmark. GPT-5.5 ottiene risultati migliori su Program Bench (69,1 contro 53,6) e su MCPMark Verified (92,9 contro 81,1). Il vantaggio di K2.7 Code è il costo: il notevole divario di prezzo permette di eseguirlo molto più frequentemente con lo stesso budget, rendendolo competitivo per carichi di lavoro ad alta intensità di agenti.
Che cos’è la «modalità di ragionamento» e posso disattivarla?
La modalità di ragionamento è il passaggio interno di elaborazione logica del modello prima di fornire una risposta. In K2.7 Code questa modalità è obbligatoria: non esiste una modalità priva di ragionamento e l’API restituisce un errore se si tenta di disabilitarla. L’efficienza dichiarata è che ora raggiunge le risposte utilizzando circa il 30% in meno di token di ragionamento rispetto a K2.6.
Conclusione
Kimi K2.7 Code è un rilascio mirato e deliberatamente specializzato: un agente per la programmazione da 1 trilione di parametri con pesi aperti, che sacrifica un effettivo divario di capacità rispetto a GPT-5.5 in cambio di un prezzo estremamente competitivo e di una licenza che consente di possedere il modello in modo completo. Non raggiungerà i primi posti nelle classifiche e la sua modalità di ragionamento obbligatoria, unita al requisito hardware di data center — oltre mezzo terabyte di pesi anche in formato nativo a 4 bit — ne limitano l’accessibilità. Tuttavia, per i team che gestiscono carichi di lavoro di programmazione ad alta frequenza, dove il costo per singolo compito si accumula rapidamente, rappresenta una delle proposte di valore più credibili del 2026. Utilizzate l’API, a meno che non disponiate già delle GPU necessarie e non abbiate un motivo specifico per ospitarlo autonomamente; testatelo sui vostri repository prima di adottarlo definitivamente e mantenete K2.6 a disposizione per le conversazioni, dato che non è mai stato progettato per sostituire K2.7 Code in questo ambito.
