Il 13 giugno 2026, Zhipu AI (che ora commercializza i propri prodotti con il marchio Z.ai) ha rilasciato GLM 5.2 su tutti i livelli del suo piano GLM Coding. Il dato più rilevante è una finestra contestuale da 1.000.000 di token, cinque volte superiore a quella offerta da GLM 5.1, abbinata a pesi aperti rilasciati sotto licenza MIT, che Zhipu aveva promesso sarebbero stati resi pubblici entro la settimana insieme all'API autonoma e al chatbot. Per un modello progettato specificamente per attività di programmazione agent-based su lunghi orizzonti temporali, l’entità di questo balzo contestuale rappresenta l’intera storia.
Ciò che mancava nell’annuncio di lancio era altrettanto significativo: non è stato riportato alcun punteggio di benchmark. Nessun risultato su SWE-bench, nessun risultato su Terminal-Bench, nessun valore su Code Arena. Ciò è insolito per un rilascio di frontiera e, nei primi giorni, tutto ciò che veniva scritto sulle «prestazioni» di GLM 5.2 era o materiale promozionale fornito dal vendor oppure valutazioni informali effettuate da qualcuno durante il weekend. La situazione è cambiata quando i pesi aperti sono stati resi pubblici il 16 giugno: Zhipu ha pubblicato un intero suite di benchmark e, subito dopo, sono seguiti rapidi test indipendenti. Questo articolo descrive cos’è realmente GLM 5.2, le specifiche confermate da Zhipu, i dati numerici ora disponibili (e quanto affidarvisi), come accedere o ospitare autonomamente un modello di questa dimensione, il confronto con GLM 5.1 e altri modelli aperti per la programmazione, e infine chi dovrebbe prendere in considerazione questo modello.
Punti chiave
- Rilasciato il 13 giugno 2026 nel piano GLM Coding; l’API, il chatbot e i pesi aperti sotto licenza MIT sono seguiti il 16 giugno.
- Modello Mixture-of-Experts (MoE) da ~753 miliardi di parametri (secondo la scheda tecnica ufficiale di Zhipu), con circa 40 miliardi di parametri attivi per token, esposti in Claude Code con l’identificativo del modello
glm-5.2[1m](identificativo baseglm-5.2). - Finestra contestuale da 1.000.000 di token (rispetto ai circa 200.000 di GLM 5.1), con output limitato a 131.072 token e due modalità di ragionamento: High e Max.
- Endpoint compatibile con Anthropic significa che Claude Code, Cline, OpenCode, OpenClaw e altri vi puntano semplicemente modificando un URL di base.
- I benchmark ora esistono. Erano assenti nel soft launch del 13 giugno, ma sono stati rilasciati insieme ai pesi: secondo i dati forniti dal vendor, SWE-bench Pro 62,1 e Terminal-Bench 2.1 pari a 81,0, oltre a un punteggio indipendente dell’ Artificial Analysis Intelligence Index pari a 51, che lo rende il modello con pesi aperti più performante. Trattate i dati forniti dal vendor come tali; quelli indipendenti ne confermano complessivamente la validità.
- L’auto-hosting richiede un data center: circa 8 GPU H200 in FP8, oppure un numero inferiore di GPU con una quantizzazione aggressiva INT4, prima ancora di considerare la cache KV relativa alla finestra contestuale da 1 milione di token.
- Cos’è realmente GLM 5.2
- Le specifiche e i benchmark arrivati in ritardo
- Come accedere a GLM 5.2 nel cloud
- La realtà hardware necessaria per eseguire autonomamente un modello da ~753 miliardi di parametri
- GLM 5.2 rispetto a GLM 5.1 e agli altri modelli con pesi aperti
- Domande frequenti
- Conclusione
- Articoli correlati
Cos’è realmente GLM 5.2
GLM 5.2 è il terzo rilascio della linea GLM-5 di Zhipu, che segue GLM 5 e GLM 5.1, ed è stato progettato per un unico scopo: scrivere e mantenere software in sessioni lunghe e multistep. Si tratta di un modello sparso Mixture-of-Experts (MoE) con circa 753 miliardi di parametri totali, ma solo circa 40 miliardi attivi per ogni token elaborato. (La scheda tecnica del modello su Hugging Face di Zhipu indica 753 miliardi; alcuni tracker di terze parti arrotondano a ~744 miliardi, lo stesso valore di GLM 5.1.) Questa sparsità consente a un modello così grande di operare a una velocità e a un costo utilizzabili, poiché si paga la potenza computazionale necessaria per i circa 40 miliardi di parametri attivi, non per l’intero totale di 753 miliardi, per ogni passaggio in avanti.
Due elementi distinguono la generazione GLM 5.2 rispetto al predecessore. Primo, il contesto: il modello accetta fino a 1.000.000 di token in input. L’API autonoma espone un identificativo modello predefinito di glm-5.2 (con una finestra contestuale ridotta), mentre la finestra completa da 1 milione di token è identificata come glm-5.2[1m] — la variante da integrare in Claude Code. Un milione di token è sufficiente per contenere un repository di medie dimensioni, i relativi test e una lunga cronologia di lavoro all’interno di un’unica finestra. Secondo, l’output: può generare fino a 131.072 token in una singola risposta, un aspetto cruciale quando un agente deve produrre un intero modulo o un diff di refactoring esteso, anziché un semplice snippet.
Zhipu ha sostituito i precedenti preset di sforzo computazionale con due livelli di impegno cognitivo: High e Max, raccomandando quest’ultimo per lavori di programmazione complessi e multistep. Non esistono impostazioni Low o Auto. Se desiderate approfondire i modelli precedenti di Zhipu e comprendere il percorso che ha portato all’attuale situazione, il nostro articolo introduttivo sulla linea GLM di Zhipu illustra dettagliatamente l’albero genealogico della famiglia di modelli.
Le specifiche e i benchmark arrivati in ritardo
Ecco la parte che vale la pena leggere con calma, perché la situazione si è evoluta rapidamente. Il 13 giugno Zhipu ha rilasciato GLM 5.2 sul Coding Plan con nessuna valutazione pubblicata di alcun tipo. I media che hanno coperto questo lancio soft, tra cui MarkTechPost, hanno tutti evidenziato lo stesso aspetto: l’annuncio parlava di disponibilità, lunghezza del contesto e roadmap open source, ma non faceva alcun cenno alle prestazioni del modello.
Questa situazione è cambiata il 16 giugno, quando i pesi aperti sono stati resi pubblici su Hugging Face e Zhipu ha pubblicato una tabella di benchmark insieme a essi. Il cosiddetto «vuoto di benchmark» era dunque reale, ma si trattava di una peculiarità legata ai tempi del lancio, non di una condizione permanente. Ne derivano due considerazioni.
In primo luogo, i dati riportati dal fornitore. Sulla scheda ufficiale di Zhipu, GLM 5.2 ottiene un punteggio di 62,1 su SWE-bench Pro (contro 58,4 di GLM 5.1 e 58,6 di GPT-5.5, ma inferiore a Claude Opus 4.8, che raggiunge 69,2) e un punteggio di 81,0 su Terminal-Bench 2.1 (contro circa 63,5 di GLM 5.1 e appena al di sotto di Opus 4.8, che ottiene 85,0, e di GPT-5.5, che ottiene 84,0). Nella suite FrontierSWE per compiti a lungo orizzonte, Zhipu riporta che GLM 5.2 è circa un punto sotto Opus 4.8. Si tratta di cifre fornite direttamente dal produttore e vanno lette come tali: scelte favorevoli dell’infrastruttura di valutazione sono normali nelle tabelle ufficiali.
In secondo luogo — e questa è una considerazione più utile — valutatori indipendenti hanno ora espresso il proprio giudizio, confermando in larga misura tale quadro. Artificial Analysis Attribuisce a GLM 5.2 un punteggio di 51 sull’Intelligence Index v4.1, rendendolo il modello open-weights leader, davanti a MiniMax-M3 (44), DeepSeek V4 Pro (44) e Kimi K2.6 (43). Nell’arena comunitaria Code Arena, GLM 5.2 (Max) si piazza al #2 nella classifica Frontend/WebDev, subito dopo Claude Fable 5 e ben al di sopra degli altri modelli open. Un vero e proprio avvertimento emerso dai dati indipendenti è che GLM 5.2 consuma molte più token in output per task rispetto ai suoi pari (Artificial Analysis ha misurato circa 43.000 token per task sull’Intelligence Index, rispetto a circa 26.000 di GLM 5.1), il che erode il suo vantaggio in termini di costo per lavori prolungati.
La formulazione onesta da adottare oggi non è quindi «nessun dato, non fidatevi di nulla». Piuttosto: GLM 5.2 è un modello open-weights verificato e performante sia nelle classifiche indipendenti di intelligenza generale che in quelle di programmazione frontend, mentre i suoi punteggi ufficiali relativi a compiti di coding agente (SWE-bench Pro, Terminal-Bench) andrebbero verificati con un valutatore neutrale come LiveBench o con test personalizzati prima di considerare definitivi eventuali titoli del tipo «supera GPT-5.5». Alcuni di questi titoli sono tecnicamente supportati su specifici benchmark — ad esempio, nella tabella di Zhipu GLM 5.2 supera effettivamente GPT-5.5 su SWE-bench Pro — ma perde invece contro Claude Opus 4.8 nella maggior parte della stessa suite, quindi la cornice interpretativa è fondamentale.
| Attributo | GLM 5.2 (confermato) |
|---|---|
| Lancio su Coding Plan | 13 giugno 2026 |
| API e pesi aperti | 16 giugno 2026 |
| Parametri totali | ~753 miliardi (MoE; alcuni tracker indicano ~744 miliardi) |
| Parametri attivi per token | ~40 miliardi |
| Finestra contestuale | 1.000.000 token (glm-5.2[1m]) |
| Output massimo | 131.072 token |
| Modalità di ragionamento | High, Max |
| Licenza | Licenza MIT (pesi aperti) |
| Benchmark indipendente | Intelligence Index di Artificial Analysis: 51 (modello open-weights migliore) |
Come accedere a GLM 5.2 nel cloud
Il percorso più rapido è il GLM Coding Plan, un abbonamento che instrada gli agenti di programmazione attraverso gli endpoint ospitati da Zhipu. Le tariffe promozionali di lancio partono da circa 10 USD/mese per la versione Lite (~400 prompt/settimana), 30 USD/mese per Pro (~2.000 prompt/settimana) e 80 USD/mese per Max (~8.000 prompt/settimana), con prezzi basati su numero di utenti per il piano Team. I prezzi di listino (non promozionali) sono più alti — alcuni rivenditori citano cifre vicine a 18/72/160 USD — e le quote possono variare, quindi verificate sempre i numeri aggiornati su Z.ai prima di sottoscrivere.
Se preferite pagare per token, l’API standalone è tariffata a circa 1,40 USD per milione di token in input e 4,40 USD per milione di token in output sugli endpoint diretti di Zhipu, con cache dei prompt che riduce il costo per l’input memorizzato a circa 0,26 USD per milione e può abbattere significativamente il costo effettivo in presenza di contesti ripetuti. Gateway di terze parti come OpenRouter offrono tariffe comparabili (Simon Willison lo ha testato con lo stesso rapporto 1,40 / 4,40), quindi confrontate i rivenditori se il costo è il fattore determinante.
L’elemento distintivo che rende interessante GLM 5.2 per flussi di lavoro già esistenti è l’endpoint compatibile con Anthropic. Gli strumenti che già utilizzano l’API Anthropic Messages possono essere reindirizzati a Zhipu semplicemente impostando una variabile d’ambiente, senza modifiche al codice:
| Impostazione | Valore |
|---|---|
ANTHROPIC_BASE_URL | https://api.z.ai/api/anthropic |
| Modello (Claude Code, 1M) | glm-5.2[1m] |
| Endpoint di coding (Cline, ecc.) | https://api.z.ai/api/coding/paas/v4 |
| Timeout per chiamate lunghe | Aumentare API_TIMEOUT_MS (ad es. 3.000.000) per esecuzioni in modalità Plan |
Questo singolo cambio è il motivo per cui GLM 5.2 è stato rilasciato con supporto nativo fin dal primo giorno per Claude Code, Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw e Kilo Code. Se utilizzate un agente nativo da terminale, la nostra guida pratica su OpenCode e sul modo in cui gestisce i backend dei modelli approfondisce ulteriormente i dettagli tecnici di integrazione.
La realtà hardware necessaria per eseguire autonomamente un modello da ~753 miliardi di parametri
La licenza MIT è la caratteristica principale ed è autentica: ora che i pesi sono pubblici su Hugging Face, potete scaricarli, affinarli e ospitarli autonomamente senza restrizioni sull’uso o sulla localizzazione geografica. L’inghippo è che «open» non significa «eseguibile sul vostro laptop». Un modello da ~753 miliardi di parametri è un carico di lavoro per data center.
In precisione FP8 (circa un byte per parametro), i soli pesi richiedono circa 750 GB di VRAM, il che in pratica corrisponde a circa 8x H200 (141 GB ciascuno) oppure 8x B200. Passando a INT4, l’ingombro scende a circa 370 GB, sufficienti su 4x H200 — oppure potete distribuirlo su un numero maggiore di GPU con meno memoria, come 8x H100, accettando un certo degrado qualitativo. E queste cifre non includono ancora il contesto: una cache KV da 1 milione di token aggiunge circa 80 GB o più, quindi la configurazione con contesto da 1 milione di token richiede realisticamente nodi della classe H200/B200. Le guide di deploy pubblicate stimano il costo mensile di un singolo server con 8x H200 a circa 10.000 USD in modalità spot pricing, fino a 25.000 USD o più su cloud GPU on-demand.
Per la stragrande maggioranza dei team, questi calcoli indicano chiaramente di optare per l’API. L’auto-hosting di GLM 5.2 ha senso solo quando motivazioni legate alla residenza dei dati, all’isolamento completo (air-gapping) o a volumi molto elevati e sostenuti giustificano il carico operativo — e va notato che l’API ospitata offre comunque un’infrastruttura cinese, un aspetto da valutare attentamente da alcuni acquirenti. Se il vostro obiettivo reale è un modello eseguibile su hardware di vostra proprietà, un MoE da ~753 miliardi di parametri non è lo strumento adatto, e la nostra guida ai migliori LLM locali per la programmazione modelli adatti a workstation singole o a server GPU di dimensioni contenute
Punti di forza
- Un contesto da 1 milione di token è davvero ampio ed è particolarmente adatto a compiti di programmazione agente su interi repository.
- Licenza MIT permissiva con pesi completamente aperti, priva di etichette restrittive per uso esclusivamente accademico o non commerciale.
- Indipendentemente il modello open-weights migliore sull’Intelligence Index di Artificial Analysis e al #2 nella classifica frontend di Code Arena.
- L’endpoint compatibile con Anthropic consente una migrazione quasi immediata da client Claude, mentre i prezzi del Coding Plan risultano inferiori a quelli delle API di ultima generazione chiuse per utenti intensivi.
Avvertenze
- I punteggi ufficiali sui benchmark di coding agente (SWE-bench Pro, Terminal-Bench) sono forniti dal produttore e risultano inferiori a quelli di Claude Opus 4.8; verificateli con valutatori neutri o con i vostri test personalizzati.
- Utilizza un numero di token in output per attività notevolmente superiore rispetto ai concorrenti, riducendo il suo vantaggio economico su lavori lunghi.
- L’auto-hosting richiede hardware data-center con più GPU, non schede per consumatori o utenti professionali; l’API ospitata gira invece su infrastrutture cinesi.
- Sono disponibili solo i livelli di sforzo High e Max; non esiste una modalità economica e veloce per compiti banali. Prezzi e quote sono ancora in fase di definizione.
GLM 5.2 rispetto a GLM 5.1 e agli altri modelli con pesi aperti
Rispetto al proprio predecessore, GLM 5.2 ha dimensioni pressoché identiche: Zhipu lo descrive come appartenente alla stessa classe di parametri di GLM 5.1 (~753 miliardi vs ~754 miliardi), con la stessa architettura MoE e circa 40 miliardi di parametri attivi. Il salto consiste quasi interamente nell’allargamento della finestra contestuale e del limite massimo di output, oltre a un miglioramento misurabile nei punteggi dei benchmark.
| Modello | Parametri totali | Contesto | Output massimo | Licenza | SWE-bench Pro (fornitore) |
|---|---|---|---|---|---|
| GLM 5.2 | ~753 miliardi MoE | 1,000,000 | 131,072 | MIT | 62.1 |
| GLM 5.1 | ~754 miliardi MoE | ~200,000 | ~131.000 | MIT | 58.4 |
Nella più ampia corsa open-weight per lo sviluppo software, GLM 5.2 entra ora come modello leader su diversi benchmark indipendenti, anziché come nuovo arrivato senza prove concrete. Le generazioni Kimi K2 di Moonshot, gli ultimi modelli codificatori di DeepSeek e Qwen pubblicano tutti risultati su SWE-bench e su suite di coding basate su agenti, e il modello flagship di Qwen offre anche una finestra contestuale da 1 milione di token; tuttavia, sull’Artificial Analysis Intelligence Index, GLM 5.2 (51) precede DeepSeek V4 Pro (44) e Kimi K2.6 (43). Detto ciò, la posizione in classifica non equivale necessariamente all’adeguatezza per il vostro codebase, e nelle suite agentic proprietarie GLM 5.2 resta ancora indietro rispetto ai modelli di frontiera chiusi (Claude Opus 4.8). Per un quadro sulle prestazioni comparative degli altri laboratori cinesi, consultate la nostra analisi di DeepSeek V4 contro Qwen 3, e per il modello più frequentemente confrontato con GLM 5.2, la nostra valutazione di Kimi K2.7 per lo sviluppo software. Abbiamo inoltre messo i due modelli a confronto diretto in GLM 5.2 vs Kimi K2.7 per lo sviluppo software.
Domande frequenti
GLM 5.2 è davvero open source?
I pesi sono rilasciati sotto licenza MIT, una delle licenze più permissive disponibili, che consente uso commerciale, modifiche e redistribuzione. I pesi sono stati resi pubblici su Hugging Face (come zai-org/GLM-5.2 e una versione in FP8) il 16 giugno 2026. Si tenga presente che «pesi aperti sotto licenza MIT» non equivale a un progetto open source completo con dati di addestramento pubblici: si ottiene il modello, non la ricetta.
Quanto costa utilizzare GLM 5.2?
Attraverso l’API, ci si può attendere un costo di circa 1,40 USD per milione di token in input e 4,40 USD per milione di token in output sull’endpoint di Zhipu, con la cache che riduce il costo dell’input memorizzato a circa 0,26 USD per milione. Il piano di abbonamento GLM Coding Plan risulta spesso più conveniente per un utilizzo continuativo, con tier promozionali che partono da circa 10 USD/mese per la versione Lite e arrivano fino a circa 80 USD/mese per la versione Max (i prezzi di listino ufficiali sono superiori). Fornitori terzi come OpenRouter propongono tariffe per token comparabili.
Posso eseguire GLM 5.2 sulla mia GPU?
Solo se «la mia GPU» indica un server con più GPU. I pesi da ~753 miliardi richiedono circa 8× H200 in FP8, oppure circa 4× H200 (o un numero maggiore di schede con minore memoria) in quantizzazione INT4, e la finestra contestuale da 1 milione di token aggiunge un elevato requisito di memoria KV-cache. Una singola GPU consumer non è in grado di eseguire questo modello; per tale scenario è preferibile un modello locale più piccolo e appositamente progettato.
GLM 5.2 funziona con Claude Code?
Sì. Zhipu fornisce un endpoint compatibile con Anthropic, quindi basta puntare Claude Code a https://api.z.ai/api/anthropic, set the model to glm-5.2[1m], and supply a Z.ai API key. Raising the request timeout is recommended for long planning runs. The same approach works for Cline, OpenCode, OpenClaw, Goose, Roo Code, Crush, and Kilo Code.
Come si confronta la finestra contestuale di GLM 5.2 con quella di GLM 5.1?
È cinque volte più grande: 1.000.000 di token rispetto ai circa 200.000 di GLM 5.1. Anche il massimo di output rimane elevato, pari a 131.072 token, rendendo GLM 5.2 particolarmente adatto a contenere un intero codebase insieme a un lungo transcript di un agente in un’unica sessione.
Zhipu ha pubblicato benchmark per GLM 5.2?
No, non durante il lancio del Coding Plan del 13 giugno — tale rilascio si è concentrato sulla disponibilità e sulla roadmap relativa ai pesi aperti. Tuttavia, Zhipu ha pubblicato una tabella completa di benchmark il 16 giugno, contemporaneamente al rilascio dei pesi, e successivamente laboratori indipendenti hanno seguito l’esempio: Artificial Analysis lo classifica come il modello open-weight migliore sull’Intelligence Index (51), mentre Code Arena lo piazza al secondo posto nella categoria frontend coding. I punteggi agentic forniti dal fornitore (SWE-bench Pro 62,1, Terminal-Bench 2,1 su 81,0) andrebbero comunque verificati con valutazioni neutre.
GLM 5.2 è migliore di Kimi K2 o DeepSeek per lo sviluppo software?
Sull’intelligenza aggregata indipendente, al momento lo supera: Artificial Analysis assegna a GLM 5.2 un punteggio di 51, contro i valori nella fascia bassa dei 40 per DeepSeek V4 Pro e Kimi K2.6, e lo piazza primo anche sulla classifica frontend di Code Arena. Su qualsiasi specifico compito di coding basato su agenti, il divario può ridursi o invertirsi, e tutti e tre i modelli pubblicano dettagliati risultati su SWE-bench; pertanto, per decisioni critiche è consigliabile effettuare un test diretto sul proprio repository piuttosto che affidarsi a una singola classifica.
Conclusione
GLM 5.2 è un rilascio reale e significativo: un modello per lo sviluppo software da ~753 miliardi di parametri, rilasciato con licenza MIT, dotato di una finestra contestuale da 1 milione di token e di un’API compatibile con Anthropic pronta all’uso, che permette di sostituirlo in pochi secondi in Claude Code o Cline. Per gli utenti intensivi di coding basato su agenti che richiedono ampie finestre contestuali e una licenza permissiva, la proposta di valore è solida, e i prezzi del Coding Plan sono competitivi.
Il divario nei benchmark che ha caratterizzato le prime 72 ore si è ormai chiuso: gli evaluatori indipendenti ora classificano GLM 5.2 come il modello open-weight leader per intelligenza aggregata e tra i primi per lo sviluppo frontend, un risultato effettivamente degno di nota. Tuttavia, occorre tenere presenti due avvertenze. Le affermazioni più sensazionalistiche del tipo «batte GPT-5.5» si basano su benchmark agentic gestiti dal fornitore, dove GLM 5.2 resta comunque inferiore a Claude Opus 4.8, e il modello consuma molti token in output, quindi è essenziale verificarne l’efficienza economica sul proprio carico di lavoro. Anche la realtà hardware va nella stessa direzione: per quasi tutti, questo modello rappresenta un’API cloud da testare, non dei pesi da auto-hostare. Un test serio è chiaramente giustificato; se ne giustificherà invece la migrazione completa dipenderà dalle prestazioni ottenute sul vostro codice, non dalla posizione in classifica.
