Due dei laboratori cinesi più dinamici nel campo dell’intelligenza artificiale hanno lanciato nuovi modelli open-weight per la programmazione entro un giorno l’uno dall’altro questo mese. Moonshot ha rilasciato Kimi K2.7 Code il 12 giugno; Zhipu (Z.ai) ha replicato il giorno successivo con GLM 5.2 il 13 giugno. Entrambi sono modelli giganti basati sull’architettura Mixture-of-Experts, entrambi sono rilasciati con licenze permissive e sono esplicitamente progettati per lo stesso obiettivo: la programmazione su orizzonti estesi e in modalità agente, senza dover ricorrere a soluzioni costose come Claude o GPT.
La differenza sta nell'approccio adottato dai due laboratori per i benchmark. Moonshot ha pubblicato una serie di dati proprietari relativi a K2.7 Code già nel primo giorno. Zhipu, invece, ha inizialmente distribuito GLM 5.2 all'interno dei suoi piani Coding Plan, senza fornire alcuna tabella comparativa di benchmark; solo alcuni giorni dopo, insieme al rilascio dell'API e dei pesi aperti con licenza MIT, ha reso disponibile un set completo di benchmark. Al momento della stesura di questo articolo, entrambi i modelli dispongono quindi di punteggi di programmazione ufficiali pubblicati dai rispettivi produttori, ma nessuno dei due vanta ancora un ampio corpus di risultati SWE-bench completamente indipendenti, e i dati principali di Moonshot si basano su suite interne proprietarie, già oggetto di critiche da parte degli sviluppatori. Ecco come i due modelli si confrontano effettivamente, cosa possiamo verificare e cosa rimane ancora incerto.
Punti chiave
- Architetture diverse, obiettivo identico. Kimi K2.7 Code è un modello MoE da 1 trilione di parametri, con 32 miliardi di parametri attivi e una finestra contestuale di 256K; GLM 5.2 conta circa 744–753 miliardi di parametri totali, con circa 40 miliardi di parametri attivi e una finestra contestuale completa da 1 milione di token.
- Entrambi ora dispongono di benchmark ufficiali. Moonshot riporta un miglioramento del +21,8% sul proprio Kimi Code Bench v2 (62,0 contro 50,9), oltre a un riduzione di circa il 30% dei token necessari per il ragionamento. In seguito, Zhipu ha pubblicato anche i punteggi di GLM 5.2: SWE-bench Pro 62,1, Terminal-Bench 2.1 81,0 e FrontierSWE 74,4, superando GPT-5.5 su diverse suite dedicate a scenari a lungo termine. Si consiglia di considerare con cautela i dati forniti dai produttori finché non saranno disponibili test indipendenti.
- Il prezzo favorisce Kimi per token, GLM per abbonamento mensile. Kimi è tariffato a $0,95 in ingresso e $4,00 in uscita per milione di token; GLM è tariffato a circa $1,40 in ingresso e $4,40 in uscita, oppure tramite un abbonamento fisso GLM Coding Plan a partire da $10/mese (versione Lite).
- Entrambi sono effettivamente open source e compatibili con utilizzi commerciali. GLM 5.2 è rilasciato con licenza MIT; Kimi utilizza una licenza MIT modificata (uso commerciale consentito, con clausola di attribuzione richiesta soltanto in caso di superamento dei 100 milioni di utenti attivi mensili o di un fatturato mensile pari a $20 milioni).
- GLM si integra agevolmente con Claude Code. Z.ai fornisce un endpoint compatibile con Anthropic, pertanto gli agenti esistenti basati su Claude Code o sull’SDK Anthropic possono essere utilizzati semplicemente sostituendo l’URL base e la chiave API.
- L’esecuzione dei pesi non è adatta ai laptop. 744 miliardi di parametri e oltre, o 1 trilione di parametri, implicano l’impiego di server multi-GPU o di una forte quantizzazione; la maggior parte degli utenti ricorrerà quindi in prima istanza alle API cloud.
- Versione in 30 secondi
- Architettura e parametri attivi
- Finestra contestuale: 1 milione vs 256K
- Benchmark per la programmazione (e il divario di trasparenza)
- Prezzi e valore
- Licenza e apertura
- Capacità autonome e utilizzo di strumenti
- Come eseguire effettivamente ciascun modello
- Come si posizionano rispetto a DeepSeek V4 e Qwen 3.x
- Domande frequenti
- Conclusione
- Articoli correlati
Versione in 30 secondi
Se desideri il contesto più lungo, i punteggi di codifica open-weight pubblicati più elevati, una licenza MIT, un costo mensile fisso e compatibilità immediata con Claude Code, GLM 5.2 rappresenta oggi il pacchetto più completo. Se invece cerchi il costo per token più basso, lo sconto più vantaggioso sulla cache per cicli agenti particolarmente intensivi in termini di token e miglioramenti misurati in efficienza token, Kimi K2.7 Code è l’opzione più snella. I benchmark di entrambi i fornitori sono al momento di prima parte, e un confronto diretto su singolo compito ha dato a GLM un leggero vantaggio: chiunque proclami un vincitore definitivo questa settimana si basa quindi sulla comunicazione del fornitore, non su dati indipendenti.
Architettura e parametri attivi
Questi modelli poggiano sulla stessa idea generale — un enorme modello MoE sparso, in cui solo una frazione dei parametri viene attivata per ogni token — ma la regolano in modo diverso.
Kimi K2.7 Code è teoricamente il modello più grande: 1 trilione di parametri totali, con 32 miliardi attivi, estratti da 384 esperti (8 instradati più 1 condiviso per token). Questa attivazione sparsa è ciò che permette a un modello da un trilione di parametri di essere servito a un prezzo ragionevole. GLM 5.2 è più piccolo in termini di parametri totali (la documentazione di Z.ai indica circa 753 miliardi, mentre strumenti come vLLM rilevano circa 744 miliardi), ma attiva leggermente più parametri per token (~40 miliardi) e punta su un contesto più lungo e su un sistema a doppio livello di sforzo cognitivo — una modalità «High» per attività routinarie e una modalità «Max» per problemi più complessi di architettura e debug.
L’interpretazione pratica è la seguente: il numero maggiore di esperti di Kimi potrebbe favorire la vastità della conoscenza, mentre il maggior numero di parametri attivi di GLM e le sue modalità di sforzo mirano alla profondità su un singolo problema complesso. I benchmark pubblicati attualmente privilegiano GLM nell’ingegneria su orizzonti lunghi, ma essendo eseguiti dal fornitore, l’architettura va considerata come evidenza di supporto, non come verdetto definitivo.
Finestra contestuale: 1 milione vs 256K
Questa è la differenza più chiara e verificabile. GLM 5.2 offre un contesto autentico da 1.000.000 di token (la glm-5.2[1m] variante), con un output limitato a circa 128.000–131.000 token. Kimi K2.7 Code opera invece con un contesto da 256.000 token (262.144 token) e un limite di output predefinito molto più contenuto: 32.768 token.
Per lavori agentic su scala repository — caricamento di grandi codebase, tracce lunghe di pianificazione seguite da esecuzione, refactoring multi-file in un’unica operazione — la finestra da 1 milione di token di GLM rappresenta un vero vantaggio e corrisponde a quanto offerto dai modelli aperti di ultima generazione come DeepSeek V4 e Qwen 3.6 Plus. Detto questo, 256.000 token rimangono comunque un valore elevato, e nei cicli agentic la maggior parte degli strumenti ben progettati recupera e suddivide il contesto anziché inserire l’intero repository in un unico input. Un contesto più ampio aiuta; non garantisce automaticamente codice migliore.
Benchmark per la programmazione (e il divario di trasparenza)
Qui è necessario mantenere un atteggiamento scettico, poiché ogni cifra riportata di seguito proviene direttamente dal fornitore.
Moonshot dichiara che K2.7 Code ottiene un punteggio di 62,0 sul proprio benchmark interno Kimi Code Bench v2, con un incremento del 21,8% rispetto ai 50,9 di K2.6, oltre a miglioramenti su Program Bench e suite agentic orientate a MCP e a una riduzione del ~30% nell’uso di token di ragionamento. Si tratta di affermazioni specifiche — tuttavia si basano su benchmark proprietari di Moonshot, e almeno un media (VentureBeat) ha riferito che alcuni utilizzatori pratici sostengono che tali numeri non corrispondono pienamente alle prestazioni reali. Al momento della stesura di questo articolo, non erano disponibili dati indipendenti su SWE-bench Verified o SWE-bench Pro per K2.7 Code.
GLM 5.2 ha adottato un approccio opposto: è stato lanciato sui livelli Coding Plan di Zhipu senza alcuna tabella di benchmark, per poi vedere Z.ai pubblicare un set completo di risultati in concomitanza con il rilascio dell’API e dei pesi aperti. Questi punteggi sono eccellenti — SWE-bench Pro 62,1 (contro 58,6 di GPT-5.5 e 58,4 di GLM 5.1), Terminal-Bench 2.1 (Terminus-2) 81,0 (contro 84,0 di GPT-5.5), FrontierSWE 74,4% (contro 72,6% di GPT-5.5), oltre a risultati migliori su orizzonti lunghi in PostTrainBench (34,3 contro 28,4) e SWE-Marathon (13,0 contro 12,0). Diversi di questi test sono stati condotti da valutatori esterni (Proximal, il team di PostTrainBench, Abundant AI), ma sono stati presentati e curati da Z.ai, pertanto vanno considerati come pubblicati dal fornitore, non come completamente indipendenti. La conclusione è che GLM 5.2 ottiene i punteggi di codifica open-weight più alti sulla carta, pur rimanendo inferiore a Claude Opus 4.8 nella maggior parte dei casi.
Esiste però un dato relativamente più neutrale. Un confronto diretto, condotto in stile indipendente da Kilo, ha attribuito a GLM 5.2 un vantaggio nella pianificazione — 9,0 contro 8,1 di Kimi su un compito relativo a un servizio backend per feature flag, con GLM che ha superato tutti e 15 i controlli di verifica, rispetto ai 14 su 15 di Kimi, e con entrambi i modelli che hanno prodotto build funzionanti quasi identiche. Si tratta di un segnale utile, ma riguarda un singolo compito valutato da un unico soggetto, non una suite completa di benchmark.
| Specifiche | GLM 5.2 (Zhipu / Z.ai) | Kimi K2.7 Code (Moonshot) |
|---|---|---|
| Rilasciato | 13 giugno 2026 | 12 giugno 2026 |
| Parametri totali / attivi | ~744–753 miliardi MoE / ~40 miliardi attivi | 1 trilione MoE / 32 miliardi attivi (384 esperti) |
| Finestra contestuale | 1.000.000 token | 256.000 token (262.144) |
| Output massimo | ~128.000–131.000 token | ~32.000 token (32.768) |
| Benchmark ufficiali per la codifica | SWE-bench Pro 62,1; Terminal-Bench 2.1 81,0; FrontierSWE 74,4% (pubblicati dal fornitore, alcuni eseguiti da terze parti) | +21,8% su Kimi Code Bench v2 (62,0 vs 50,9, dichiarato dal fornitore) |
| SWE-bench indipendente | Non ancora disponibile (suite pubbliche) | Non ancora disponibile |
| Prezzo API (per 1 milione) | ~1,40 $ in / ~4,40 $ out; piano fisso da 10 $/mese | 0,95 $ in / 4,00 $ out; 0,19 $ per input memorizzato nella cache |
| Licenza | MIT | Licenza MIT modificata (uso commerciale consentito; attribuzione obbligatoria se >100 milioni di utenti attivi mensili o >20 milioni di $/mese) |
| Compatibilità endpoint | Compatibile con OpenAI e Anthropic | Compatibile con OpenAI (Moonshot / OpenRouter) |
Prezzi e valore
I modelli di pricing sono strutturati in modo diverso, quindi la risposta a «quale sia più economico» dipende dall’uso effettivo.
Kimi K2.7 Code adotta un semplice modello API a consumo: 0,95 $ per milione di token in input, 4,00 $ per milione di token in output e un notevole 0,19 $ per milione di token in input memorizzati nella cache. Questo tasso di cache è cruciale per la codifica agentic, dove si invia ripetutamente lo stesso contesto stabile a ogni passo. A questi prezzi, Kimi risulta drasticamente più economica rispetto ai modelli di ultima generazione occidentali — già solo considerando il costo per token in output, oltre dieci volte più economica delle opzioni premium.
GLM 5.2 prevede un costo a consumo di circa 1,40 $ per milione di token in input e 4,40 $ per milione di token in output (attivo presso provider come FriendliAI, Novita e Z.ai), ma Zhipu promuove anche il GLM Coding Plan, un abbonamento fisso con livelli Lite, Pro, Max e Team. Lite parte da 10 $/mese (circa 400 prompt/settimana), Pro da 30 $/mese e Max da 80 $/mese — un’ottima soluzione se si programma quotidianamente con il modello e si preferisce una fatturazione prevedibile.
Se sei uno sviluppatore indipendente che lavora costantemente all’interno di un agente, il piano fisso di GLM può rivelarsi la scelta più economica nella pratica. Se invece gestisci carichi di lavoro variabili o intermittenti, o stai costruendo un prodotto su questa base, il modello a consumo di Kimi unito al costo contenuto della cache risulta più facile da modellare. Per una visione più ampia dei costi tra le opzioni auto-hostabili, il nostro confronto dei migliore LLM locale per la programmazione nel 2026 mette entrambi i modelli nel giusto contesto.
Licenza e apertura
Entrambi sono effettivamente modelli con pesi aperti, il che li distingue dai laboratori di ricerca chiusi — ma i dettagli contrattuali differiscono.
GLM 5.2 utilizza una licenza MIT standard: puoi usarlo, modificarlo e distribuirlo commercialmente senza restrizioni. Kimi K2.7 Code adotta invece una licenza MIT modificata, che consente anch’essa l’uso commerciale, ma aggiunge una condizione: se il tuo prodotto supera i 100 milioni di utenti attivi mensili o i 20 milioni di dollari di ricavi mensili, devi indicare in modo evidente «Kimi K2.7 Code» nell’interfaccia utente. Per quasi tutti i team si tratta di un dettaglio irrilevante; per un iperscalatore, invece, è una clausola effettivamente vincolante. Quindi, in termini di permissività assoluta, la licenza MIT di GLM 5.2 ne costituisce un vantaggio.
Punti di forza di GLM 5.2
- Contesto completo da 1 milione di token per lavori su scala repository
- Punteggi di codifica open-weight pubblicati più elevati tra i due modelli
- Licenza MIT senza restrizioni
- Compatibilità immediata con endpoint Anthropic e OpenAI
- Piano di codifica a tariffa fissa a partire da 10 $/mese
- Controllo dello sforzo cognitivo con modalità «High» e «Max»
Limitazioni di GLM 5.2
- I benchmark sono pubblicati dal fornitore (alcuni eseguiti da terze parti); non è ancora disponibile una suite SWE-bench indipendente su larga scala
- Il costo per token tramite API è leggermente superiore rispetto a Kimi
- Numero totale di parametri inferiore
Capacità autonome e utilizzo di strumenti
Entrambi i modelli sono esplicitamente progettati per agenti di codifica su orizzonti lunghi, non solo per il completamento di snippet, e supportano entrambi un forte richiamo di strumenti (tool-calling).
Il punto di forza distintivo di GLM 5.2 per chi costruisce agenti è la compatibilità: poiché Z.ai fornisce un endpoint compatibile con Anthropic (oltre che con OpenAI), puoi reindirizzare Claude Code o un agente basato su Anthropic SDK semplicemente modificando l’URL base e la chiave — senza dover riscrivere nulla. Inoltre, si integra nativamente con Cline, Cursor e oltre venti strumenti per sviluppatori, e i suoi punteggi pubblicati su orizzonti lunghi (FrontierSWE, PostTrainBench, SWE-Marathon) sono mirati espressamente a carichi di lavoro agentic che richiedono ore di esecuzione. Kimi K2.7 Code punta invece sull’efficienza agentic misurata: la riduzione dichiarata da Moonshot del ~30% nei token di ragionamento è rivolta direttamente al costo e alla latenza dei cicli agentic multistep, e il modello mostra miglioramenti su suite orientate a MCP. Se stai scegliendo un framework per agenti basato su uno di questi due modelli, la nostra guida ai migliore framework per agenti AI nel 2026 copre il livello di orchestrazione.
Come eseguire effettivamente ciascun modello
Esistono due percorsi possibili, e per la maggior parte delle persone la scelta più semplice è il cloud.
API cloud è la via più agevole. Kimi K2.7 Code è disponibile tramite l’API di Moonshot e aggregatori come OpenRouter; GLM 5.2 è attivo sul GLM Coding Plan e tramite endpoint compatibili con OpenAI/Anthropic (URL base api.z.ai). È qui che dovrebbe iniziare quasi chiunque.
Pesi aperti sono disponibili — Kimi K2.7 Code è presente su Hugging Face con supporto per vLLM, SGLang e KTransformers, e i pesi MIT di GLM 5.2 sono scaricabili — ma l’hardware richiesto è impegnativo. Un modello da 1 trilione di parametri (anche con soli 32 miliardi attivi) o un modello da circa 750 miliardi di parametri richiede server multi-GPU o una quantizzazione GGUF aggressiva per essere eseguito localmente; non si tratta di modelli eseguibili su una singola GPU consumer. Se il tuo obiettivo è ospitare autonomamente modelli di codifica più piccoli su hardware comune, ti conviene optare per i migliori LLM locali da eseguire su Ollama nel 2026 rispetto a entrambi questi colossi.
Come si posizionano rispetto a DeepSeek V4 e Qwen 3.x
Nessuno dei due modelli esiste in isolamento. DeepSeek V4-Pro (rilasciato ad aprile 2026) conta 1,6 trilioni di parametri, una finestra contestuale di 1 milione di token e una licenza MIT, ottenendo un punteggio verificato dell’80,6% su SWE-bench Verified — attualmente il risultato più alto tra i modelli open-weight disponibili. Anche Qwen 3.6 Plus offre una finestra contestuale di 1 milione di token e un punteggio competitivo ai vertici del settore, pari al 78,8% su SWE-bench Verified. In altre parole, GLM 5.2 e Kimi K2.7 Code entrano in un campo affollato e in rapida evoluzione, nel quale concorrenti già dispongono di benchmark pubblicati e in parte indipendenti sulle principali suite di valutazione pubbliche. I dati forniti dal produttore per GLM 5.2 sono competitivi, ma i confronti di riferimento su SWE-bench Verified restano ancora appannaggio di DeepSeek e Qwen. Per un’analisi più approfondita di questa coppia, consulta il nostro confronto DeepSeek V4 vs Qwen3.
Domande frequenti
Qual è il modello migliore per la programmazione: GLM 5.2 o Kimi K2.7 Code?
Al momento non esiste ancora una risposta completamente indipendente, ma sui dati pubblicati GLM 5.2 sembra superiore per attività di programmazione su orizzonti estesi: secondo i benchmark di Zhipu, ottiene il 62,1% su SWE-bench Pro e il 74,4% su FrontierSWE, risultati superiori a quelli di GPT-5.5 su diverse suite, con una finestra contestuale di 1 milione di token e compatibilità con Claude Code. Kimi K2.7 Code è più economico per token e riporta un miglioramento del +21,8% sul proprio benchmark dedicato alla programmazione. Un test head-to-head su singolo compito (Kilo) ha assegnato a GLM un leggero vantaggio nella pianificazione (9,0 contro 8,1, con 15/15 contro 14/15 verifiche superate). Tutti i punteggi citati provengono da dati pubblicati dai produttori; attendi quindi i risultati indipendenti su SWE-bench prima di considerarli definitivi.
GLM 5.2 dispone di benchmark pubblicati?
Sì — ma non al lancio. Zhipu ha dapprima distribuito GLM 5.2 ai propri piani Coding Plan il 13 giugno 2026, senza fornire alcuna tabella comparativa di benchmark; solo alcuni giorni dopo, in concomitanza con il rilascio dell’API e dei pesi open-weight sotto licenza MIT, ha pubblicato un insieme completo di risultati: SWE-bench Pro 62,1, Terminal-Bench 2.1 81,0, FrontierSWE 74,4, PostTrainBench 34,3 e SWE-Marathon 13,0, battendo GPT-5.5 su diverse suite dedicate a compiti su orizzonti estesi, sebbene rimanga inferiore a Claude Opus 4.8 nella maggior parte dei casi. Alcuni di questi test sono stati eseguiti da valutatori terzi, ma curati da Z.ai: si tratta quindi di benchmark pubblicati dal produttore, non pienamente indipendenti.
Posso utilizzare GLM 5.2 con Claude Code?
Sì. Z.ai mette a disposizione un endpoint compatibile con Anthropic (disponibile su api.z.ai, ad esempio https://api.z.ai/api/anthropic o l’endpoint dedicato alla programmazione), pertanto è possibile instradare Claude Code o un agente basato sull’SDK Anthropic verso GLM 5.2 semplicemente impostando ANTHROPIC_BASE_URL e la propria chiave API Z.ai, selezionando poi il modello glm-5.2 (o glm-5.2[1m]) — senza necessità di modificare il codice. Si consiglia di aumentare il timeout delle richieste, poiché la latenza del primo token con una finestra contestuale di 1 milione di token è superiore al valore predefinito di Claude.
Qual è il costo di ciascun modello?
Kimi K2.7 Code viene fatturato a $0,95 per milione di token in input, $4,00 per output e $0,19 per token memorizzato nella cache. GLM 5.2 ha invece un costo di circa $1,40 per milione di token in input e $4,40 per output, oppure è disponibile tramite il piano GLM Coding Plan a partire da $10/mese (versione Lite), $30 per la versione Pro e $80 per la versione Max.
Kimi K2.7 Code è gratuito per uso commerciale?
Di fatto sì. Utilizza una licenza MIT modificata che ne consente l’uso commerciale; l’unica condizione aggiuntiva prevede che i prodotti con oltre 100 milioni di utenti attivi mensili o con ricavi mensili superiori a 20 milioni di dollari devono visualizzare la dicitura «Kimi K2.7 Code» nell’interfaccia utente. La licenza MIT standard di GLM 5.2 non prevede alcuna clausola simile.
Posso eseguire questi modelli localmente?
I pesi sono disponibili — Kimi K2.7 Code su Hugging Face (compatibile con vLLM/SGLang/KTransformers) e GLM 5.2 sotto licenza MIT — ma entrambi sono modelli MoE di grandi dimensioni. Ci si deve attendere la necessità di server multi-GPU o di una forte quantizzazione; nessuno dei due può essere eseguito agevolmente su una singola GPU consumer.
Quale modello dispone della finestra contestuale più ampia?
GLM 5.2, di gran lunga: 1.000.000 di token contro i 256.000 di Kimi K2.7 Code. Ciò rende GLM 5.2 la scelta preferibile per contesti che coprono interi repository o tracce di agenti molto lunghe, anche se strumenti avanzati per agenti riducono la frequenza con cui è necessario sfruttare l’intera finestra.
Conclusione
Si tratta di due eccellenti modelli open per la programmazione, rilasciati a distanza di un solo giorno l’uno dall’altro, e il verdetto onesto è che la gara è molto ravvicinata — con GLM 5.2 attualmente in vantaggio sulla carta. Entrambi i produttori hanno pubblicato benchmark specifici per la programmazione, e quelli di Zhipu sono i migliori dei due (SWE-bench Pro 62,1, FrontierSWE 74,4, superiori a GPT-5.5 su diverse suite per compiti su orizzonti estesi), oltre a offrire una finestra contestuale di 1 milione di token, una licenza MIT senza restrizioni, un sistema di fatturazione prevedibile a tariffa fissa e un’integrazione immediata con Claude Code. Kimi K2.7 Code risponde con il prezzo più basso per token, uno sconto significativo sulla cache, cicli di agenti altamente efficienti in termini di token e miglioramenti dichiarati in autonomia.
Se stai sviluppando un prodotto o gestisci carichi di lavoro variabili e intensivi, inizia con l’API a consumo di Kimi e con il suo sconto sulla cache. Se passi la giornata immerso in un agente per la programmazione e valorizzi una finestra contestuale da 1 milione di token, i migliori punteggi pubblicati e una compatibilità immediata con Anthropic, il piano Coding di GLM 5.2 è difficilmente battibile. E qualunque scelta tu faccia, ricorda che tutti i punteggi citati qui sono stati pubblicati dai produttori: attendi i risultati indipendenti su SWE-bench Verified prima di considerare definitive qualsiasi affermazione di marketing. In un settore dove DeepSeek V4-Pro ha già ottenuto un punteggio verificato dell’80,6% su SWE-bench Verified, lo standard per definire il «miglior modello open per la programmazione» è fissato da valutatori neutri, non dalle stesse aziende che hanno sviluppato i modelli.
