Monday, 22 June 2026 | Updating Daily AI insight, written for builders

GLM 5.2 vs Kimi K2.7 Code: Qual Codificador Aberto Sai Vencedor?

Dois dos laboratórios de IA mais agressivos da China lançaram novos modelos de programação de pesos abertos com apenas um dia de diferença neste mês. A Moonshot lançou Kimi K2.7 Code em 12 de junho; a Zhipu (Z.ai) respondeu com GLM 5.2 em 13 de junho. Ambos são modelos gigantes do tipo Mixture-of-Experts, possuem licenças permissivas e foram projetados especificamente para a mesma tarefa: programação agêntica de longo prazo, sem os custos associados ao Claude ou ao GPT.

O diferencial está na forma como cada laboratório conduziu os testes de desempenho. A Moonshot publicou, no primeiro dia, uma série de resultados próprios para o K2.7 Code. Já a Zhipu implantou inicialmente o GLM 5.2 em seus planos de codificação sem divulgar nenhuma tabela comparativa de desempenho; somente dias depois, junto com o lançamento da API e dos pesos abertos sob licença MIT, divulgou um conjunto completo de benchmarks. Assim, até a data desta redação, ambos os modelos já contam com pontuações oficiais de codificação publicadas pelos respectivos fabricantes — porém nenhum deles possui ainda um conjunto robusto de resultados independentes no SWE-bench, e as principais métricas divulgadas pela Moonshot se baseiam em suítes internas proprietárias, cuja metodologia já começou a ser questionada por profissionais do setor. Abaixo, apresentamos uma comparação realista entre os dois modelos, o que conseguimos verificar com segurança e quais pontos ainda permanecem em aberto.

Principais conclusões

  • Arquiteturas diferentes, mesmo objetivo. O Kimi K2.7 Code é um modelo MoE com 1 trilhão de parâmetros, 32 bilhões ativos e janela de contexto de 256K; o GLM 5.2 tem cerca de 744–753 bilhões de parâmetros no total, aproximadamente 40 bilhões ativos e uma janela de contexto completa de 1 milhão de tokens.
  • Ambos agora possuem benchmarks oficiais publicados pelos fabricantes. A Moonshot relata um ganho de +21,8% em seu próprio benchmark Kimi Code Bench v2 (62,0 contra 50,9), além de cerca de 30% menos tokens de raciocínio utilizados. Posteriormente, a Zhipu também publicou os resultados do GLM 5.2 — SWE-bench Pro 62,1, Terminal-Bench 2.1 81,0 e FrontierSWE 74,4 — superando o GPT-5.5 em diversos benchmarks de longo prazo. Recomenda-se cautela ao interpretar os números divulgados pelas empresas até que testes independentes sejam realizados.
  • O preço favorece o Kimi por token e o GLM por mês. O Kimi é cobrado a US$ 0,95 por milhão de tokens de entrada e US$ 4,00 por milhão de tokens de saída; o GLM é cobrado aproximadamente a US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de tokens de saída, ou mediante um plano fixo mensal chamado GLM Coding Plan, a partir de US$ 10/mês (versão Lite).
  • Ambos são verdadeiramente abertos e compatíveis com uso comercial. O GLM 5.2 utiliza a licença MIT; o Kimi adota uma licença MIT modificada (uso comercial permitido, com cláusula de atribuição apenas caso o usuário ultrapasse 100 milhões de usuários ativos mensais ou receita mensal superior a US$ 20 milhões).
  • O GLM integra-se perfeitamente ao Claude Code. A Z.ai disponibiliza um endpoint compatível com a API Anthropic, de modo que agentes existentes baseados no Claude Code ou no SDK Anthropic funcionam imediatamente com apenas a troca da URL base e da chave de acesso.
  • Executar os pesos diretamente não é viável em laptops. Mais de 744 bilhões e 1 trilhão de parâmetros exigem servidores com múltiplas GPUs ou quantização pesada — a maioria dos usuários recorrerá primeiramente às APIs em nuvem.

Versão de 30 segundos

Se você busca o contexto mais longo, as melhores pontuações publicadas em codificação para modelos de peso aberto, licença MIT, uma cobrança mensal fixa e compatibilidade imediata com o Claude Code, o GLM 5.2 é o pacote mais completo hoje. Se, por outro lado, prioriza a menor taxa por token, o melhor desconto por cache para loops de agentes intensivos em tokens e ganhos mensuráveis em eficiência por token, o Kimi K2.7 Code é a opção mais enxuta. Por ora, todos os benchmarks desses dois fornecedores são de primeira parte, e um confronto direto em única tarefa deu ao GLM uma leve vantagem — portanto, qualquer pessoa que proclame um vencedor definitivo nesta semana está se baseando na divulgação dos fornecedores, não em dados independentes.

Arquitetura e parâmetros ativos

Esses modelos são construídos sobre a mesma ideia geral — uma enorme arquitetura esparsa MoE (Mixture of Experts), na qual apenas uma fração dos parâmetros é ativada por token —, mas ajustam-na de maneiras distintas.

O Kimi K2.7 Code é, teoricamente, o modelo maior: 1 trilhão de parâmetros no total, com 32 bilhões ativos por token, selecionados entre 384 especialistas (8 roteados mais 1 compartilhado por token). Essa ativação esparsa é justamente o que permite servir um modelo de um trilhão de parâmetros a um preço razoável. Já o GLM 5.2 é menor em termos totais (os documentos da Z.ai citam cerca de 753 bilhões, enquanto rastreadores como o vLLM indicam aproximadamente 744 bilhões), mas ativa ligeiramente mais parâmetros por token (~40 bilhões) e conta com um contexto mais extenso, além de um sistema dual de esforço cognitivo — um modo "Alto" para tarefas rotineiras e um modo "Máximo" para problemas mais complexos de arquitetura e depuração.

A leitura prática é a seguinte: o maior número de especialistas do Kimi pode favorecer a amplitude de conhecimento, enquanto a maior quantidade de parâmetros ativos do GLM e seus modos de esforço visam profundidade na resolução de um único problema difícil. Os benchmarks publicados atualmente tendem a favorecer o GLM em engenharia de longo prazo, mas são conduzidos pelos próprios fornecedores; portanto, trate essa narrativa arquitetural como evidência complementar, não como veredito definitivo.

Janela de contexto: 1 milhão vs. 256K

Esta é a diferença mais clara e verificável. O GLM 5.2 oferece um contexto genuíno de 1.000.000 de tokens (a variante glm-5.2[1m] ) com saída limitada a aproximadamente 128.000–131.000 tokens. Já o Kimi K2.7 Code opera com um contexto de 256.000 tokens (262.144 tokens) e um limite padrão muito menor para saída: 32.768 tokens.

Para trabalhos agênticos em escala de repositório — carregar uma grande base de código, traços extensos de planejamento seguidos de execução, refatorações multiarquivo em uma única operação — a janela de 1 milhão de tokens do GLM representa uma vantagem real e corresponde ao que modelos abertos de ponta, como o DeepSeek V4 e o Qwen 3.6 Plus, agora oferecem. Dito isso, 256K ainda é um valor considerável, e, em loops agênticos bem estruturados, a maioria das ferramentas recupera e fragmenta o contexto em vez de inserir todo o repositório de uma só vez. Um contexto maior ajuda, mas não garante, automaticamente, código melhor.

Benchmarks de programação (e a lacuna de transparência)

É aqui que você precisa manter o ceticismo ativo, pois todos os números destacados abaixo foram divulgados pelos próprios fornecedores.

A Moonshot informa que o K2.7 Code obtém 62,0 pontos em seu benchmark interno Kimi Code Bench v2, um aumento de 21,8% em relação aos 50,9 do K2.6, além de ganhos nos benchmarks Program Bench e em suítes agênticas focadas em MCP (Model Context Protocol), com redução de ~30% no uso de tokens de raciocínio. Trata-se de afirmações específicas — contudo, todos esses testes utilizam benchmarks proprietários da Moonshot, e pelo menos um veículo (VentureBeat) relatou que profissionais afirmam que esses números não se confirmam plenamente na prática. Não havia, no momento da redação deste artigo, dados públicos disponíveis para o SWE-bench Verified ou o SWE-bench Pro relativos ao K2.7 Code.

O GLM 5.2 adotou uma abordagem diferente: foi lançado inicialmente nas camadas Coding Plan da Zhipu sem tabela de benchmarks, e só depois a Z.ai publicou um conjunto completo junto com sua API e pesos abertos. Essas pontuações são fortes: SWE-bench Pro 62,1 (contra 58,6 do GPT-5.5 e 58,4 do GLM 5.1), Terminal-Bench 2.1 (Terminus-2) 81,0 (contra 84,0 do GPT-5.5), FrontierSWE 74,4% (contra 72,6% do GPT-5.5), além de vitórias em horizontes prolongados nos benchmarks PostTrainBench (34,3 contra 28,4) e SWE-Marathon (13,0 contra 12,0). Vários desses testes foram executados por avaliadores externos (Proximal, equipe do PostTrainBench, Abundant AI), mas foram divulgados e curados pela Z.ai; portanto, devem ser considerados como dados publicados pelo fornecedor, não como avaliações totalmente independentes. A conclusão é que o GLM 5.2 registra as melhores pontuações em codificação para modelos de peso aberto, embora ainda fique atrás do Claude Opus 4.8 na maioria delas.

Existe um dado mais próximo da neutralidade. Um confronto direto, realizado de forma independente pela Kilo, atribuiu ao GLM 5.2 uma vantagem em planejamento — 9,0 contra 8,1 do Kimi em uma tarefa de serviço de feature flags para backend, com o GLM passando em 15/15 verificações de validação, contra 14/15 do Kimi, e ambos produzindo builds funcionais quase idênticos. Esse é um sinal útil, mas trata-se de uma única tarefa avaliada por um único avaliador, não de uma suíte completa de benchmarks.

EspecificaçõesGLM 5.2 (Zhipu / Z.ai)Kimi K2.7 Code (Moonshot)
Lançado13 de junho de 202612 de junho de 2026
Parâmetros totais / ativos~744–753 bilhões MoE / ~40 bilhões ativos1 trilhão MoE / 32 bilhões ativos (384 especialistas)
Janela de contexto1.000.000 tokens256K (262.144) tokens
Saída máxima~128–131K tokens~32K (32.768) tokens
Benchmarks oficiais de codificaçãoSWE-bench Pro 62,1; Terminal-Bench 2.1 81,0; FrontierSWE 74,4% (publicados pelo fornecedor, alguns executados por terceiros)+21,8% no Kimi Code Bench v2 (62,0 contra 50,9, conforme relatado pelo fornecedor)
SWE-bench independenteAinda não disponível (suítes públicas)Ainda não disponível
Preço da API (por 1 milhão)~US$ 1,40 entrada / ~US$ 4,40 saída; plano fixo a partir de US$ 10/mêsUS$ 0,95 entrada / US$ 4,00 saída; US$ 0,19 por entrada em cache
LicençaMITLicença MIT modificada (uso comercial permitido; atribuição obrigatória caso ultrapasse 100 milhões de usuários ativos mensais ou receita mensal superior a US$ 20 milhões)
Compatibilidade com endpointsCompatível com OpenAI e AnthropicCompatível com OpenAI (Moonshot / OpenRouter)

Preços e valor

Os modelos de precificação são estruturados de forma distinta, logo a resposta à pergunta "qual é mais barato?" depende do tipo de uso.

O Kimi K2.7 Code segue um modelo simples de API sob demanda: US$ 0,95 por milhão de tokens de entrada, US$ 4,00 por milhão de tokens de saída e uma taxa notável de US$ 0,19 por milhão para entradas em cache. Essa taxa de cache é relevante para codificação agêntica, onde grande parte do contexto estável é reenviada a cada etapa. Nessas condições, o Kimi é drasticamente mais barato que os modelos de ponta ocidentais — somente comparando preços de saída, é mais de dez vezes mais econômico que as opções premium.

O GLM 5.2 tem uma precificação sob demanda de aproximadamente US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de tokens de saída (disponível em provedores como FriendliAI, Novita e Z.ai), mas a Zhipu também oferece o GLM Coding Plan, um plano de assinatura fixo com níveis Lite, Pro, Max e Team. O Lite começa em US$ 10/mês (cerca de 400 prompts/semana), o Pro custa US$ 30/mês e o Max, US$ 80/mês — excelente custo-benefício para quem programa diariamente nele e deseja faturamento previsível.

Se você é um desenvolvedor individual que vive dentro de um agente o dia inteiro, o plano fixo do GLM pode ser a escolha mais econômica na prática. Se suas cargas de trabalho forem variáveis ou intermitentes, ou se você estiver construindo um produto sobre essa infraestrutura, a tarifa sob demanda do Kimi, combinada com seu baixo custo de cache, é mais fácil de modelar. Para uma visão mais ampla dos custos entre opções auto-hospedáveis, nossa análise comparativa dos melhor LLM local para programação em 2026 coloca ambos em contexto.

Licença e abertura

Ambos são verdadeiramente modelos de peso aberto, o que os distingue dos laboratórios de ponta fechados — mas os detalhes legais diferem.

O GLM 5.2 utiliza a licença MIT padrão: use-o, modifique-o, distribua-o comercialmente, sem restrições. Já o Kimi K2.7 Code emprega uma licença MIT modificada, que também permite uso comercial, mas acrescenta uma condição: se seu produto ultrapassar 100 milhões de usuários ativos mensais ou gerar receita mensal superior a US$ 20 milhões, você deve exibir de forma proeminente "Kimi K2.7 Code" na interface do usuário. Para praticamente todas as equipes, isso não representa um problema; já para um hiperscaler, trata-se de uma cláusula real. Assim, em termos de permissividade pura, a licença MIT do GLM 5.2 dá-lhe uma pequena vantagem.

Pontos fortes do GLM 5.2

  • Contexto completo de 1 milhão de tokens para trabalhos em escala de repositório
  • As melhores pontuações publicadas em codificação para modelos de peso aberto entre os dois
  • Licença MIT irrestrita
  • Compatibilidade imediata com endpoints Anthropic e OpenAI
  • Plano de codificação com taxa fixa a partir de US$ 10/mês
  • Controle dual de esforço cognitivo: modo "Alto" e modo "Máximo"

Reservas quanto ao GLM 5.2

  • Os benchmarks são publicados pelo fornecedor (alguns executados por terceiros); ainda não há uma suíte ampla e independente de SWE-bench
  • Taxa por token na API ligeiramente superior à do Kimi
  • Contagem total de parâmetros menor

Capacidade agente e uso de ferramentas

Ambos os modelos têm como alvo explícito agentes de codificação de longo prazo, não apenas a conclusão de snippets, e ambos expõem chamadas robustas a ferramentas.

O destaque do GLM 5.2 para desenvolvedores de agentes é sua compatibilidade: como a Z.ai oferece um endpoint compatível com Anthropic (além de um compatível com OpenAI), você pode redirecionar o Claude Code ou um agente baseado no SDK da Anthropic para ele simplesmente trocando a URL base e a chave — sem necessidade de reescrita. Ele também integra-se nativamente ao Cline, Cursor e mais de 20 ferramentas de desenvolvimento, e suas pontuações publicadas em cenários de longo prazo (FrontierSWE, PostTrainBench, SWE-Marathon) foram projetadas especificamente para cargas de trabalho agênticas que duram várias horas. Já o Kimi K2.7 Code enfatiza a eficiência agêntica mensurável: a redução relatada pela Moonshot de ~30% no uso de tokens de raciocínio visa diretamente o custo e a latência de loops agênticos com múltiplas etapas, e o modelo apresenta ganhos em suítes orientadas a MCP. Se você está escolhendo uma estrutura de agente para usar com qualquer um desses modelos, nosso guia sobre as melhor estruturas de agentes de IA em 2026 aborda a camada de orquestração.

Como executar efetivamente cada modelo

Há dois caminhos, e, para a maioria das pessoas, a resposta é a nuvem.

API em nuvem é o caminho mais fácil. O Kimi K2.7 Code está disponível por meio da API da Moonshot e agregadores como o OpenRouter; já o GLM 5.2 está ativo no GLM Coding Plan e por endpoints compatíveis com OpenAI/Anthropic (URL base api.z.ai). É por aqui que quase todos deveriam começar.

Pesos abertos já estão disponíveis — o Kimi K2.7 Code está no Hugging Face com suporte para vLLM, SGLang e KTransformers, e os pesos do GLM 5.2 sob licença MIT podem ser baixados —, mas o hardware exigido é robusto. Um modelo de 1 trilhão de parâmetros (mesmo com apenas 32 bilhões ativos) ou um modelo de ~750 bilhões requer servidores com múltiplas GPUs ou quantização GGUF agressiva para execução local; não são modelos viáveis em uma única placa gráfica de consumo. Se seu objetivo é hospedar localmente modelos menores de codificação em hardware comum, você obterá melhores resultados com os melhores LLMs locais para executar no Ollama em 2026 do que por qualquer um desses pesos-pesados.

Como eles se posicionam ao lado do DeepSeek V4 e do Qwen 3.x

Nenhum dos modelos existe isoladamente. O DeepSeek V4-Pro (lançado em abril de 2026) possui 1,6 trilhão de parâmetros, contexto de 1 milhão de tokens e licença MIT, além de obter 80,6% verificado no SWE-bench Verified — atualmente o melhor resultado publicado entre modelos abertos. O Qwen 3.6 Plus também oferece contexto de 1 milhão de tokens e um desempenho competitivo com a fronteira, alcançando 78,8% no SWE-bench Verified. Em outras palavras, o GLM 5.2 e o Kimi K2.7 Code entram em um campo já consolidado e em rápida evolução, onde concorrentes já publicaram benchmarks parcialmente independentes nas suítes públicas padrão. Os números divulgados pelo fabricante do GLM 5.2 são competitivos, mas, por enquanto, as comparações mais confiáveis no SWE-bench Verified ainda pertencem ao DeepSeek e ao Qwen. Para uma análise mais detalhada desse par, veja nosso comparativo DeepSeek V4 vs Qwen3.

Perguntas frequentes

O GLM 5.2 ou o Kimi K2.7 Code é melhor para programação?

Ainda não há uma resposta totalmente independente, mas, com base nos dados publicados, o GLM 5.2 parece mais forte em tarefas de programação de longo prazo: os benchmarks da Zhipu indicam 62,1% no SWE-bench Pro e 74,4% no FrontierSWE, superando o GPT-5.5 em diversas suítes, com contexto de 1 milhão de tokens e compatibilidade com o Claude Code. Já o Kimi K2.7 Code tem custo menor por token e relata ganho de +21,8% em seu próprio benchmark de programação. Um confronto direto em tarefa única (Kilo) deu ao GLM uma leve vantagem em planejamento (9,0 contra 8,1, com 15/15 contra 14/15 verificações). Todos os resultados principais foram divulgados pelos fabricantes, portanto aguarde os testes independentes no SWE-bench antes de considerar qualquer dado como definitivo.

O GLM 5.2 possui benchmarks publicados?

Sim — mas não na data de lançamento. A Zhipu implantou inicialmente o GLM 5.2 em suas camadas Coding Plan em 13 de junho de 2026, sem divulgar tabela de benchmarks; apenas dias depois, junto com a disponibilização da API e dos pesos abertos sob licença MIT, publicou um conjunto completo: SWE-bench Pro 62,1, Terminal-Bench 2.1 81,0, FrontierSWE 74,4, PostTrainBench 34,3 e SWE-Marathon 13,0, superando o GPT-5.5 em diversas suítes de longo prazo, embora fique atrás do Claude Opus 4.8 na maioria delas. Vários desses testes foram executados por avaliadores terceirizados, mas curados pela Z.ai; logo, são benchmarks publicados pelo fabricante, não totalmente independentes.

Posso usar o GLM 5.2 com o Claude Code?

Sim. A Z.ai disponibiliza um endpoint compatível com a Anthropic (sob api.z.ai, por exemplo, https://api.z.ai/api/anthropic ou o endpoint específico para programação), permitindo que você aponte o Claude Code ou um agente baseado no SDK da Anthropic para o GLM 5.2 simplesmente configurando ANTHROPIC_BASE_URL e sua chave de API da Z.ai, seguido da seleção do modelo glm-5.2 (ou glm-5.2[1m]) — sem necessidade de reescrever código. Espere aumentar o tempo limite das requisições, pois a latência até o primeiro token no contexto de 1 milhão de tokens é maior que o padrão do Claude.

Qual é o custo de cada modelo?

O Kimi K2.7 Code é cobrado a US$ 0,95 por milhão de tokens de entrada, US$ 4,00 por milhão de tokens de saída e US$ 0,19 por milhão de tokens em cache. Já o GLM 5.2 é cobrado aproximadamente a US$ 1,40 por milhão de tokens de entrada e US$ 4,40 por milhão de tokens de saída, ou vendido por meio do plano GLM Coding, a partir de US$ 10/mês (Lite), US$ 30 para o Pro e US$ 80 para o Max.

O Kimi K2.7 Code é gratuito para uso comercial?

Efetivamente sim. Ele utiliza uma licença MIT modificada que permite uso comercial; a única condição adicional é que produtos com mais de 100 milhões de usuários ativos mensais ou receita mensal superior a US$ 20 milhões devem exibir "Kimi K2.7 Code" em sua interface. A licença MIT pura do GLM 5.2 não contém essa cláusula.

Posso executar esses modelos localmente?

Os pesos estão disponíveis — o Kimi K2.7 Code no Hugging Face (compatível com vLLM/SGLang/KTransformers) e o GLM 5.2 sob licença MIT —, mas ambos são modelos MoE extremamente grandes. Espere precisar de servidores com múltiplas GPUs ou de quantização pesada; nenhum deles roda confortavelmente em uma única GPU voltada ao consumidor.

Qual modelo possui a janela de contexto maior?

O GLM 5.2, com ampla margem: 1.000.000 de tokens contra 256.000 do Kimi K2.7 Code. Isso torna o GLM mais adequado para contextos que abrangem repositórios inteiros e rastros de agentes muito extensos, embora ferramentas robustas para agentes reduzam a frequência com que se precisa utilizar toda a janela.

Conclusão

Trata-se de dois excelentes modelos de programação genuinamente abertos, lançados com um dia de diferença, e o veredito honesto é que a disputa está muito equilibrada — com o GLM 5.2 atualmente detendo ligeira vantagem sobre o papel. Ambos os fabricantes publicaram benchmarks de programação, e os da Zhipu são os mais fortes (62,1% no SWE-bench Pro e 74,4% no FrontierSWE, superando o GPT-5.5 em diversas suítes de longo prazo), além de oferecerem contexto de 1 milhão de tokens, licença MIT irrestrita, cobrança previsível por taxa fixa e integração perfeita com o Claude Code. O Kimi K2.7 Code responde com o menor custo por token, desconto significativo para tokens em cache, loops de agente eficientes em termos de tokens e ganhos próprios reportados.

Se você está lançando um produto ou executando cargas de trabalho variáveis intensivas, comece com a API sob demanda do Kimi e seu desconto para cache. Se você passa o dia inteiro dentro de um agente de programação e valoriza uma janela de contexto de 1 milhão de tokens, os melhores resultados publicados e a compatibilidade imediata com a Anthropic, o plano de programação do GLM 5.2 é difícil de superar. E, independentemente da escolha, lembre-se de que todos os números destacados aqui foram divulgados pelos fabricantes — aguarde os resultados independentes do SWE-bench Verified antes de considerar qualquer afirmação de marketing como um fato estabelecido. Em um campo onde o DeepSeek V4-Pro já registra 80,6% verificado no SWE-bench Verified, o padrão para o "melhor codificador aberto" é definido por avaliadores neutros, não por laboratórios que desenvolveram os modelos.

Scroll to Top