Monday, 22 June 2026 | Updating Daily AI insight, written for builders

Explicando o GLM 5.2: Modelo Aberto de Programação com Janela de Contexto de 1 milhão de Tokens da Zhipu

Em 13 de junho de 2026, a Zhipu AI (que agora comercializa seus produtos como Z.ai) lançou o GLM 5.2 em todos os níveis de seu Plano GLM Coding. O destaque é uma janela de contexto de 1.000.000 de tokens — cinco vezes maior que a oferecida pelo GLM 5.1 — combinada com pesos abertos licenciados pela MIT, cuja disponibilização foi prometida pela Zhipu para ocorrer na mesma semana, juntamente com uma API independente e um chatbot. Para um modelo voltado especificamente para tarefas de programação autônomas de longo prazo, o aumento dessa janela de contexto é, por si só, toda a história.

O que faltou no anúncio de lançamento foi igualmente notável: não houve sequer uma única pontuação em benchmarks. Nenhum resultado no SWE-bench, nenhum no Terminal-Bench, nenhum no Code Arena. Isso é incomum para um lançamento de ponta, e, nos primeiros dias após o lançamento, tudo o que se escreveu sobre o "desempenho" do GLM 5.2 consistia exclusivamente em marketing da fabricante ou em avaliações informais feitas por entusiastas durante o fim de semana. Essa situação mudou quando os pesos abertos foram tornados públicos em 16 de junho: a Zhipu publicou uma suíte completa de benchmarks, seguida rapidamente por avaliadores independentes. Este artigo aborda exatamente o que o GLM 5.2 realmente é, as especificações confirmadas pela Zhipu, os resultados já disponíveis (e até que ponto eles merecem confiança), como acessar ou hospedar localmente um modelo desse porte, como ele se compara ao GLM 5.1 e a outros modelos abertos de programação, e para quem vale a pena considerá-lo.

Principais conclusões

  • Lançado em 13 de junho de 2026 no Plano GLM Coding; a API, o chatbot e os pesos abertos licenciados pela MIT seguiram em 16 de junho.
  • modelo esparsificado Mixture-of-Experts com ~753 bilhões de parâmetros (conforme indicado no próprio cartão técnico da Zhipu), com cerca de 40 bilhões de parâmetros ativos por token, exposto no Claude Code como o identificador do modelo glm-5.2[1m] (identificador base glm-5.2).
  • janela de contexto de 1.000.000 de tokens (contra ~200 mil do GLM 5.1), com saída limitada a 131.072 tokens e dois modos de raciocínio: High e Max.
  • Endpoint compatível com a Anthropic significa que o Claude Code, o Cline, OpenCode, o OpenClaw e outros podem utilizá-lo simplesmente alterando uma URL base.
  • Agora existem benchmarks. Eles estavam ausentes no lançamento inicial de 13 de junho, mas foram divulgados junto com os pesos: resultados reportados pela fabricante no SWE-bench Pro (62,1) e no Terminal-Bench 2.1 (81,0), além de uma avaliação independente da Artificial Analysis Intelligence Index com pontuação de 51, posicionando-o como o melhor modelo de pesos abertos. Trate os números fornecidos pela fabricante como tal; os resultados independentes corroboram essa visão geral.
  • Hospedar localmente exige infraestrutura de data center: aproximadamente 8 GPUs H200 em FP8, ou menos GPUs com quantização agressiva em INT4, antes mesmo de levar em conta o cache KV de 1 milhão de tokens.

O que realmente é o GLM 5.2

O GLM 5.2 é o terceiro lançamento da linha GLM-5 da Zhipu, seguindo o GLM 5 e o GLM 5.1, e foi projetado para uma única finalidade: escrever e manter software em sessões longas e multi-etapas. Trata-se de um modelo esparsificado Mixture-of-Experts (MoE), com aproximadamente 753 bilhões de parâmetros no total, porém apenas cerca de 40 bilhões ativos por token. (O cartão técnico da Zhipu no Hugging Face lista 753B; alguns rastreadores de terceiros arredondam esse valor para ~744B, o mesmo do GLM 5.1.) Essa esparsidade é o que permite que um modelo tão grande seja executado com velocidade e custo viáveis, pois o custo computacional incide apenas sobre os ~40 bilhões de parâmetros ativos — e não sobre os 753 bilhões totais — em cada passo adiante.

Duas características definem a geração GLM 5.2 em comparação com seu antecessor. Primeiro, o contexto: o modelo aceita até 1.000.000 de tokens de entrada. A API independente expõe um identificador padrão de modelo glm-5.2 (com uma janela de contexto menor), enquanto a janela completa de 1 milhão de tokens é acessada como glm-5.2[1m] — a variante integrada ao Claude Code. Um milhão de tokens é suficiente para armazenar um repositório de tamanho médio, seus testes e um extenso histórico de trabalho em uma única janela. Segundo, a saída: o modelo pode gerar até 131.072 tokens em uma única resposta, o que é relevante quando um agente está produzindo um módulo inteiro ou um diff extenso de refatoração, em vez de um pequeno trecho de código.

A Zhipu substituiu as antigas configurações de esforço por dois níveis de profundidade de raciocínio: High e Max, recomendando o modo Max para trabalhos complexos e multi-etapas de programação. Não há opções Low ou Auto. Se você deseja entender melhor os modelos anteriores da Zhipu e como a empresa chegou até aqui, nosso guia introdutório sobre a linha GLM da Zhipu detalha sua evolução.

As especificações e os benchmarks que chegaram tardiamente

Esta é a parte que vale a pena ler com calma, pois a situação evoluiu rapidamente. A Zhipu lançou o GLM 5.2 no Coding Plan em 13 de junho com nenhuma avaliação publicada de qualquer tipo. Veículos que cobriram esse lançamento discreto — incluindo o MarkTechPost — observaram todos a mesma coisa: o anúncio tratava de disponibilidade, comprimento de contexto e rota aberta para código-fonte, mas não mencionava sequer os resultados obtidos pelo modelo.

Isso mudou em 16 de junho, quando os pesos abertos foram disponibilizados publicamente no Hugging Face e a Zhipu publicou uma tabela de benchmarks ao lado deles. Assim, o chamado "vácuo de benchmarks" era real, mas tratava-se de uma peculiaridade temporal do lançamento, não de uma condição permanente. Duas conclusões seguem.

Primeiro, os números divulgados pelo fornecedor. Na própria ficha técnica da Zhipu, o GLM 5.2 obtém 62,1 no SWE-bench Pro (contra 58,4 do GLM 5.1 e 58,6 do GPT-5.5, mas atrás do Claude Opus 4.8, que atingiu 69,2) e 81,0 no Terminal-Bench 2.1 (contra cerca de 63,5 do GLM 5.1, e logo atrás do Opus 4.8, com 85,0, e do GPT-5.5, com 84,0). No conjunto de testes de longo alcance FrontierSWE, a Zhipu relata que o GLM 5.2 fica aproximadamente um ponto atrás do Opus 4.8. Trata-se de dados gerados pela própria empresa e devem ser interpretados como tal — escolhas favoráveis de configurações de avaliação são normais em tabelas de primeira parte.

Segundo — e mais útil — avaliadores independentes já se pronunciaram e corroboram amplamente essa imagem. Artificial Analysis Avalia o GLM 5.2 com 51 pontos no seu Intelligence Index v4.1, tornando-o o modelo de pesos abertos líder, à frente do MiniMax-M3 (44), DeepSeek V4 Pro (44) e Kimi K2.6 (43). Na plataforma comunitária Code Arena, o GLM 5.2 (Max) ocupa a 2ª posição no ranking Frontend/WebDev, ficando atrás apenas do Claude Fable 5 e muito à frente de outros modelos abertos. Uma ressalva genuína destacada pelos dados independentes: o GLM 5.2 consome muitos mais tokens de saída por tarefa do que seus pares (a Artificial Analysis mediu cerca de 43 mil tokens por tarefa no Intelligence Index, contra cerca de 26 mil no GLM 5.1), o que reduz sua vantagem de custo em tarefas prolongadas.

Portanto, a formulação honesta hoje não é "sem números, não confie em nada". É sim: o GLM 5.2 é um modelo de pesos abertos comprovadamente sólido nos rankings independentes de inteligência e codificação frontend, enquanto seus resultados oficiais em codificação agente (SWE-bench Pro, Terminal-Bench) devem ser verificados com um avaliador neutro — como o LiveBench ou seu próprio repositório — antes de considerar qualquer manchete do tipo "supera o GPT-5.5" como definitiva. Várias dessas manchetes são tecnicamente sustentadas em benchmarks específicos — o GLM 5.2 supera mesmo o GPT-5.5 no SWE-bench Pro na tabela da Zhipu —, mas perde para o Claude Opus 4.8 na maior parte do mesmo conjunto, o que mostra que a forma como os resultados são apresentados é fundamental.

AtributoGLM 5.2 (confirmado)
Lançamento no Coding Plan13 de junho de 2026
API e pesos abertos16 de junho de 2026
Número total de parâmetros~753 bilhões (MoE; alguns rastreadores indicam ~744 bilhões)
Parâmetros ativos por token~40 bilhões
Janela de contexto1 milhão de tokens (glm-5.2[1m])
Saída máxima131.072 tokens
Modos de raciocínioAlto, Max
LicençaLicença MIT (pesos abertos)
Benchmark independenteArtificial Analysis Intelligence Index: 51 (melhor modelo de pesos abertos)

Como acessar o GLM 5.2 na nuvem

O caminho mais rápido é o GLM Coding Plan, uma assinatura que direciona agentes de programação aos endpoints hospedados pela Zhipu. Os planos promocionais de lançamento custam aproximadamente US$ 10/mês na versão Lite (cerca de 400 prompts/semana), US$ 30/mês na Pro (~2.000 prompts/semana) e US$ 80/mês na Max (~8.000 prompts/semana), com preços por usuário para equipes. Os preços listados (não promocionais) são mais altos — alguns revendedores citam valores próximos de US$ 18 / US$ 72 / US$ 160 — e as cotas podem variar; portanto, confirme os números atuais no site Z.ai antes de assinar.

Se preferir pagar por token, a API autônoma tem preços aproximados de US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de tokens de saída no endpoint próprio da Zhipu, com cache de prompts que reduz o custo dos tokens de entrada armazenados em cache para cerca de US$ 0,26 por milhão e pode diminuir substancialmente o custo efetivo em contextos repetidos. Gateways de terceiros, como o OpenRouter, anunciam taxas comparáveis (Simon Willison testou-o nessa plataforma com os mesmos valores de US$ 1,40 / US$ 4,40); portanto, compare os preços entre revendedores caso o custo seja o fator decisivo.

O diferencial que torna o GLM 5.2 interessante para fluxos de trabalho já existentes é o endpoint compatível com a Anthropic. Ferramentas que já se comunicam com a API Anthropic Messages podem ser redirecionadas para a Zhipu apenas alterando uma variável de ambiente, sem necessidade de mudanças no código:

ConfiguraçãoValor
ANTHROPIC_BASE_URLhttps://api.z.ai/api/anthropic
Modelo (Claude Code, 1M)glm-5.2[1m]
Endpoint de codificação (Cline etc.)https://api.z.ai/api/coding/paas/v4
Tempo limite para chamadas longasAumentar API_TIMEOUT_MS (por exemplo, 3.000.000) para execuções no modo Plan

Essa única alteração é o motivo pelo qual o GLM 5.2 foi lançado com suporte imediato a Claude Code, Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw e Kilo Code. Se você trabalha com agentes nativos de terminal, nosso guia prático sobre OpenCode e como ele lida com backends de modelos explica com mais detalhes essa integração.

A realidade de hardware envolvida em executar um modelo de ~753 bilhões de parâmetros localmente

A licença MIT é o principal destaque — e é genuína: agora que os pesos estão públicos no Hugging Face, você pode baixá-los, ajustá-los (fine-tune) e hospedá-los localmente sem restrições de uso ou geográficas. O porém é que "aberto" não significa "executável em seu laptop". Um modelo de ~753 bilhões de parâmetros é uma carga de trabalho para data center.

Na precisão FP8 (aproximadamente um byte por parâmetro), os pesos sozinhos exigem cerca de 750 GB de VRAM, o que na prática equivale a cerca de 8× H200 (141 GB cada) ou 8× B200. Em INT4, a ocupação cai para cerca de 370 GB, cabendo em aproximadamente 4× H200 — ou pode ser distribuída entre mais placas com menos memória, como 8× H100, com alguma perda de qualidade. E esses valores ainda não incluem o contexto: um cache KV de 1 milhão de tokens adiciona estimados 80 GB ou mais, de modo que a configuração com contexto de 1 milhão de tokens exige realisticamente nós da classe H200/B200. Guias de implantação relatados situam um único servidor com 8× H200 em torno de US$ 10 mil/mês em preços sob demanda (spot), subindo para US$ 25 mil ou mais em nuvens GPU sob demanda.

Para a esmagadora maioria das equipes, essa conta indica claramente o uso da API. Hospedar o GLM 5.2 localmente faz sentido apenas quando requisitos de residência de dados, isolamento físico (air-gapping) ou volume muito alto e contínuo justificam a carga operacional — e observe que a API hospedada conveniente roda em infraestrutura chinesa, o que representa uma consideração específica para alguns compradores. Se seu objetivo real for um modelo executável em hardware que você realmente possui, um MoE de ~753 bilhões de parâmetros é a ferramenta errada, e nosso guia sobre melhores LLMs locais para programação modelos de tamanho adequado para estações de trabalho individuais ou servidores GPU modestos

Pontos fortes

  • 1 milhão de tokens de contexto é realmente amplo e ideal para tarefas agente que envolvem repositórios inteiros.
  • Licença MIT permissiva com pesos totalmente abertos, sem rótulos restritivos como "apenas para pesquisa" ou "não comercial".
  • É, de forma independente, o melhor modelo de pesos abertos no Artificial Analysis Intelligence Index e ocupa a 2ª posição no ranking frontend da Code Arena.
  • Endpoint compatível com a Anthropic permite migração quase imediata a partir de clientes Claude, e os preços do Coding Plan são inferiores aos das APIs fechadas de ponta para usuários intensivos.

Ressalvas

  • Os resultados oficiais em codificação agente (SWE-bench Pro, Terminal-Bench) são de responsabilidade do fornecedor e ficam atrás do Claude Opus 4.8; confirme-os com avaliadores neutros ou com suas próprias tarefas.
  • Utiliza notavelmente mais tokens de saída por tarefa do que seus concorrentes, prejudicando sua vantagem de custo em trabalhos longos.
  • A hospedagem local exige hardware de data center com múltiplas GPUs, não equipamentos voltados para consumidores ou usuários avançados (prosumers); a API hospedada opera em infraestrutura chinesa.
  • Oferece apenas os níveis de esforço Alto e Máximo; não há um modo barato e rápido para tarefas triviais. Os preços e cotas ainda estão em fase de definição.

GLM 5.2 vs GLM 5.1 e demais modelos abertos

Em comparação com seu próprio predecessor, o GLM 5.2 tem tamanho aproximadamente igual — a Zhipu o descreve como pertencente à mesma classe de parâmetros do GLM 5.1 (~753B versus ~754B) — com o mesmo design MoE (Mixture of Experts) e cerca de 40B de parâmetros ativos. O salto é quase inteiramente atribuído ao aumento da janela de contexto e do limite de saída, além de uma melhoria mensurável nos resultados de benchmarks.

ModeloParâmetros totaisContextoSaída máximaLicençaSWE-bench Pro (fornecedor)
GLM 5.2~753B MoE1,000,000131,072MIT62.1
GLM 5.1~754B MoE~200,000~131 milMIT58.4

Na corrida mais ampla de modelos de codificação de pesos abertos, o GLM 5.2 entra agora como líder em diversos rankings independentes, em vez de ser um novato sem comprovação. A nova geração Kimi K2 da Moonshot, bem como os mais recentes modelos codificadores da DeepSeek e da Qwen, todos publicam resultados nos benchmarks SWE-bench e de codificação agente; além disso, o modelo principal da Qwen também oferece uma janela de contexto de 1 milhão de tokens — contudo, no Artificial Analysis Intelligence Index, o GLM 5.2 (51) fica à frente do DeepSeek V4 Pro (44) e do Kimi K2.6 (43). Dito isso, a posição no ranking não equivale necessariamente à adequação ao seu repositório de código, e, em suítes agente desenvolvidas internamente, o GLM 5.2 ainda fica atrás dos modelos de ponta fechados (como o Claude Opus 4.8). Para entender como os demais laboratórios chineses se comparam, veja nossa análise de DeepSeek V4 versus Qwen 3, e, para o modelo mais frequentemente comparado ao GLM 5.2, nossa avaliação de Kimi K2.7 para codificação. Também colocamos os dois modelos frente a frente em GLM 5.2 versus Kimi K2.7 para codificação.

Perguntas frequentes

O GLM 5.2 é realmente de código aberto?

Os pesos são disponibilizados sob a licença MIT, uma das licenças mais permissivas existentes, que permite uso comercial, modificações e redistribuição. Os pesos foram tornados públicos no Hugging Face (como zai-org/GLM-5.2 e uma versão em FP8) em 16 de junho de 2026. Observe que ‘pesos abertos sob licença MIT’ não equivale a um projeto totalmente de código aberto com dados de treinamento públicos; você recebe o modelo, mas não a receita (ou seja, os detalhes do processo de treinamento).

Quanto custa usar o GLM 5.2?

Via API, espere cerca de US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de tokens de saída no endpoint da Zhipu, com cache reduzindo o custo dos tokens de entrada armazenados em cache para cerca de US$ 0,26 por milhão. O plano de assinatura GLM Coding Plan costuma ser mais econômico para uso contínuo, com camadas promocionais iniciando em torno de US$ 10/mês para a versão Lite e escalando até cerca de US$ 80/mês para a versão Max (os preços listados são superiores). Provedores terceirizados, como o OpenRouter, listam taxas comparáveis por token.

Posso executar o GLM 5.2 na minha própria GPU?

Apenas se ‘minha própria GPU’ significar um servidor com múltiplas GPUs. Os pesos de ~753B exigem aproximadamente 8× H200 em precisão FP8, ou cerca de 4× H200 (ou mais placas com menos memória) com quantização INT4, e a janela de contexto de 1 milhão de tokens acrescenta uma grande exigência adicional para o cache KV. Uma única GPU voltada para consumidores não consegue executar esse modelo; para isso, você precisa de um modelo local menor e projetado especificamente para esse fim.

O GLM 5.2 funciona com o Claude Code?

Sim. A Zhipu disponibiliza um endpoint compatível com a Anthropic, portanto basta apontar o Claude Code para https://api.z.ai/api/anthropiczai-org/GLM-5.2 glm-5.2[1m]e definir o modelo como

Como a janela de contexto do GLM 5.2 se compara à do GLM 5.1?

É cinco vezes maior: 1 milhão de tokens contra aproximadamente 200 mil no GLM 5.1. O limite máximo de saída também permanece elevado, em 131.072 tokens, o que, combinado, torna o GLM 5.2 mais adequado para manter um repositório completo de código juntamente com um longo histórico de interações de agente em uma única sessão.

A Zhipu publicou benchmarks para o GLM 5.2?

Não no lançamento do Coding Plan, em 13 de junho — esse evento focou na disponibilidade imediata e na trajetória futura de pesos abertos. Contudo, a Zhipu publicou uma tabela completa de benchmarks quando os pesos foram liberados publicamente em 16 de junho, seguida por avaliações independentes: o Artificial Analysis o classifica como o melhor modelo de pesos abertos no seu Intelligence Index (51), e o Code Arena o posiciona em segundo lugar na categoria de codificação frontend. Já os resultados de testes agente conduzidos pelo fornecedor (SWE-bench Pro 62,1, Terminal-Bench 2,1 de 81,0) devem ser verificados cuidadosamente com avaliações neutras.

O GLM 5.2 é melhor que o Kimi K2 ou a DeepSeek para codificação?

Em termos de inteligência agregada independente, atualmente lidera ambas: o Artificial Analysis atribui ao GLM 5.2 uma pontuação de 51, contra valores na faixa baixa dos 40 para o DeepSeek V4 Pro e o Kimi K2.6, e ele também supera ambos no ranking de codificação frontend do Code Arena. Em qualquer tarefa específica de codificação agente, essa diferença pode diminuir ou até se inverter, e os três modelos publicam resultados detalhados no SWE-bench; portanto, para decisões críticas, realize testes diretos no seu próprio repositório em vez de confiar exclusivamente em um único ranking.

Conclusão

O GLM 5.2 é um lançamento real e notável: um modelo de codificação com ~753 bilhões de parâmetros, licenciado sob MIT, com janela de contexto de 1 milhão de tokens e uma API compatível com a Anthropic pronta para uso imediato, permitindo substituí-lo facilmente no Claude Code ou no Cline em segundos. Para usuários intensivos de codificação agente que buscam janelas de contexto extensas e licenciamento permissivo, sua proposta de valor é forte, e os preços do Coding Plan são bastante competitivos.

A lacuna nos benchmarks que marcou as primeiras 72 horas já foi superada: avaliadores independentes agora classificam o GLM 5.2 como o principal modelo de pesos abertos em inteligência agregada e quase no topo em codificação frontend — uma credencial genuína. No entanto, mantenha duas ressalvas em mente. As afirmações mais chamativas do tipo ‘supera o GPT-5.5’ baseiam-se em benchmarks agente conduzidos pelo fornecedor, onde o GLM 5.2 ainda fica atrás do Claude Opus 4.8; além disso, o modelo consome muitos tokens de saída, portanto é essencial verificar sua viabilidade econômica com base na sua carga de trabalho real. A realidade de hardware aponta na mesma direção: para quase todos, trata-se de uma API em nuvem para testes, não de pesos para hospedagem local. Um teste sério é claramente recomendado; já a decisão de migrar integralmente dependerá do desempenho do modelo no seu código específico, e não nas posições de um ranking.

Scroll to Top