{"id":1179,"date":"2026-06-19T16:39:14","date_gmt":"2026-06-19T16:39:14","guid":{"rendered":"https:\/\/convly.ai\/kimi-k2-7-code-explained-2026\/"},"modified":"2026-06-19T16:39:32","modified_gmt":"2026-06-19T16:39:32","slug":"kimi-k2-7-code-explained-2026","status":"publish","type":"post","link":"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/","title":{"rendered":"Explicando o Kimi K2.7 Code: Modelo Aberto de Programa\u00e7\u00e3o de 1 trilh\u00e3o de par\u00e2metros da Moonshot"},"content":{"rendered":"<p>A Moonshot AI lan\u00e7ou o Kimi K2.7 Code em 12 de junho de 2026, e o nome \u00e9 mais significativo do que o habitual. Este n\u00e3o \u00e9 um novo chatbot gen\u00e9rico chamado 'Kimi 2.7'. Trata-se de um modelo exclusivamente voltado para programa\u00e7\u00e3o: um sistema esparsamente ativo de Mixture-of-Experts com 1 trilh\u00e3o de par\u00e2metros, ajustado especificamente para planejar altera\u00e7\u00f5es, editar arquivos, executar ferramentas e realizar tarefas de software complexas e multi-etapas. Para conversas cotidianas, a Moonshot ainda recomenda o uso da vers\u00e3o anterior, K2.6.<\/p>\n<p>O foco principal \u00e9 a efici\u00eancia. O K2.7 Code afirma obter pontua\u00e7\u00f5es superiores em tarefas de programa\u00e7\u00e3o comparado ao K2.6, consumindo cerca de 30% menos tokens de racioc\u00ednio; seu pre\u00e7o \u00e9 de US$ 0,95 por milh\u00e3o de tokens de entrada e US$ 4,00 por milh\u00e3o de tokens de sa\u00edda. Trata-se de uma fra\u00e7\u00e3o do custo cobrado pelos principais modelos fechados. Os pesos do modelo s\u00e3o p\u00fablicos sob licen\u00e7a MIT modificada, permitindo que voc\u00ea o execute localmente \u2014 desde que possua hardware adequado para um modelo que ocupa aproximadamente 595 GB em disco, mesmo em sua forma nativa de 4 bits. Abaixo, detalhamos o que \u00e9 real, o que foi informado pelo fornecedor e onde esse modelo se posiciona.<\/p>\n<div class=\"convly-tldr\">\n<h3>Principais conclus\u00f5es<\/h3>\n<ul>\n<li><strong>Exclusivamente para programa\u00e7\u00e3o, n\u00e3o \u00e9 um chatbot.<\/strong> 'K2.7 Code' \u00e9 um modelo especializado em agentes de programa\u00e7\u00e3o; a Moonshot recomenda o K2.6 para uso geral.<\/li>\n<li><strong>MoE de 1 trilh\u00e3o de par\u00e2metros, com 32 bilh\u00f5es ativos.<\/strong> 384 especialistas (8 roteados + 1 compartilhado), 61 camadas, contexto de 256K tokens, vocabul\u00e1rio de 160K tokens, aten\u00e7\u00e3o MLA e um codificador multimodal MoonViT de 400 milh\u00f5es de par\u00e2metros para entradas de imagem e v\u00eddeo.<\/li>\n<li><strong>O modo de racioc\u00ednio \u00e9 obrigat\u00f3rio.<\/strong> N\u00e3o h\u00e1 modo sem racioc\u00ednio; desativ\u00e1-lo resulta em erro de API.<\/li>\n<li><strong>Ganhos relatados pelo fornecedor em compara\u00e7\u00e3o ao K2.6:<\/strong> +21,8% no Kimi Code Bench v2, +11,0% no Program Bench e +31,5% no MLS Bench Lite, com cerca de 30% menos tokens de racioc\u00ednio.<\/li>\n<li><strong>Precifica\u00e7\u00e3o agressiva:<\/strong> US$ 0,95 por milh\u00e3o de tokens de entrada \/ US$ 4,00 por milh\u00e3o de tokens de sa\u00edda, com acertos de cache pr\u00f3ximos a US$ 0,19 \u2014 cerca de 6 vezes mais barato que o Claude Opus 4.8 e at\u00e9 aproximadamente 12 vezes mais barato que o Claude Fable 5 na sa\u00edda.<\/li>\n<li><strong>Pesos abertos, exig\u00eancias pesadas de hardware.<\/strong> Licen\u00e7a MIT modificada no Hugging Face; os pesos s\u00e3o distribu\u00eddos nativamente em int4 (~595 GB), e a infer\u00eancia local realista ainda exige aproximadamente 8 GPUs da classe de 80 GB (~640 GB de VRAM).<\/li>\n<\/ul>\n<\/div>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_84 counter-flat ez-toc-counter ez-toc-container-direction\">\n<label for=\"ez-toc-cssicon-toggle-item-6a389c5664801\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Alternar<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #000000;color:#000000\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #000000;color:#000000\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-6a389c5664801\"  aria-label=\"Alternar\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#What_Kimi_K27_Code_actually_is\" >O que realmente \u00e9 o Kimi K2.7 Code<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#Specs_and_architecture\" >Especifica\u00e7\u00f5es e arquitetura<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#The_benchmark_gains_read_honestly\" >Os ganhos nos benchmarks, interpretados com honestidade<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#Pricing_and_value\" >Pre\u00e7os e valor<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#How_to_use_it_API_vs_running_the_weights\" >Como utiliz\u00e1-lo: API versus execu\u00e7\u00e3o dos pesos localmente<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#How_it_compares_to_K26_and_rivals\" >Como se compara ao K2.6 e aos concorrentes<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#FAQ\" >Perguntas frequentes<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#Bottom_line\" >Conclus\u00e3o<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/#Related_articles\" >Artigos relacionados<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"What_Kimi_K27_Code_actually_is\"><\/span>O que realmente \u00e9 o Kimi K2.7 Code<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>O K2.7 Code \u00e9 a mais recente itera\u00e7\u00e3o da linha Kimi em r\u00e1pida evolu\u00e7\u00e3o da Moonshot, sendo o primeiro modelo lan\u00e7ado pela empresa como uma vers\u00e3o especializada em programa\u00e7\u00e3o, em vez de um modelo gen\u00e9rico com um modo adicional para programa\u00e7\u00e3o. Seu objetivo projetual \u00e9 engenharia de software de longo prazo: o tipo de trabalho em que um agente l\u00ea um reposit\u00f3rio, planeja uma altera\u00e7\u00e3o, edita diversos arquivos, executa uma compila\u00e7\u00e3o, analisa o erro retornado e itera sobre a solu\u00e7\u00e3o. Ele foi constru\u00eddo para agir, n\u00e3o para conversar.<\/p>\n<p>Essa \u00eanfase reflete-se nas configura\u00e7\u00f5es padr\u00e3o. O modelo sempre opera com o modo 'racioc\u00ednio' ativado \u2014 n\u00e3o h\u00e1 como desativ\u00e1-lo, e a API rejeita solicita\u00e7\u00f5es que tentem faz\u00ea-lo. A aposta \u00e9 que, para agentes especializados em programa\u00e7\u00e3o, os rastros de racioc\u00ednio justificam seu custo, e os ganhos de efici\u00eancia do K2.7 mant\u00eam esse custo sob controle. Caso voc\u00ea precise de um modelo que responda rapidamente a perguntas simples com baixo custo, a pr\u00f3pria Moonshot recomenda usar o K2.6. Cobrimos toda a fam\u00edlia em nosso <a href=\"\/pt\/moonshot-kimi-explained-2026\/\">explicador sobre o Moonshot Kimi<\/a>.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Specs_and_architecture\"><\/span>Especifica\u00e7\u00f5es e arquitetura<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>A arquitetura \u00e9 uma MoE esparsa. Dos 1 trilh\u00e3o de par\u00e2metros totais, apenas cerca de 32 bilh\u00f5es s\u00e3o ativados por token, o que mant\u00e9m o custo e a lat\u00eancia de infer\u00eancia muito abaixo do que seria esperado de um modelo denso de 1 trilh\u00e3o de par\u00e2metros.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Especifica\u00e7\u00f5es<\/th>\n<th>Kimi K2.7 Code<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>N\u00famero total de par\u00e2metros<\/td>\n<td>1 trilh\u00e3o (MoE)<\/td>\n<\/tr>\n<tr>\n<td>Par\u00e2metros ativos por token<\/td>\n<td>~32 bilh\u00f5es<\/td>\n<\/tr>\n<tr>\n<td>Especialistas<\/td>\n<td>384 (8 roteados + 1 compartilhado)<\/td>\n<\/tr>\n<tr>\n<td>Camadas<\/td>\n<td>61 (1 densa)<\/td>\n<\/tr>\n<tr>\n<td>Janela de contexto<\/td>\n<td>256K tokens (262.144)<\/td>\n<\/tr>\n<tr>\n<td>Vocabul\u00e1rio<\/td>\n<td>160K<\/td>\n<\/tr>\n<tr>\n<td>Aten\u00e7\u00e3o<\/td>\n<td>MLA (Aten\u00e7\u00e3o Latente Multicabe\u00e7a)<\/td>\n<\/tr>\n<tr>\n<td>Modalidade<\/td>\n<td>Texto, imagem e v\u00eddeo (por meio do codificador MoonViT de 400 milh\u00f5es de par\u00e2metros)<\/td>\n<\/tr>\n<tr>\n<td>Precis\u00e3o nativa<\/td>\n<td>INT4 (pesos MoE), aten\u00e7\u00e3o em BF16<\/td>\n<\/tr>\n<tr>\n<td>Modo de racioc\u00ednio<\/td>\n<td>Obrigat\u00f3rio (n\u00e3o pode ser desativado)<\/td>\n<\/tr>\n<tr>\n<td>Licen\u00e7a<\/td>\n<td>Licen\u00e7a MIT modificada (pesos abertos)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>A entrada multimodal nativa \u00e9 um diferencial genu\u00edno para um modelo voltado \u00e0 programa\u00e7\u00e3o. Voc\u00ea pode fornecer-lhe uma captura de tela de uma interface com falhas, um diagrama ou uma breve grava\u00e7\u00e3o de tela, juntamente com o c\u00f3digo-fonte. A maioria dos modelos abertos especializados em programa\u00e7\u00e3o aceita apenas texto, portanto essa caracter\u00edstica amplia significativamente os casos de uso pr\u00e1ticos \u2014 como depurar a partir de uma captura de tela ou implementar diretamente a partir de um prot\u00f3tipo \u2014 sem exigir um pipeline visual separado.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"The_benchmark_gains_read_honestly\"><\/span>Os ganhos nos benchmarks, interpretados com honestidade<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Os n\u00fameros de destaque divulgados pela Moonshot comparam o K2.7 Code ao K2.6 em suas pr\u00f3prias su\u00edtes internas. Trata-se de dados reportados pelo fabricante e baseados em benchmarks da pr\u00f3pria Moonshot; portanto, devem ser considerados indicativos, n\u00e3o como uma verdade neutra e objetiva.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Benchmark (reportado pelo fabricante)<\/th>\n<th>K2.6<\/th>\n<th>K2.7 Code<\/th>\n<th>Varia\u00e7\u00e3o<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Kimi Code Bench v2<\/td>\n<td>50.9<\/td>\n<td>62.0<\/td>\n<td>+21.8%<\/td>\n<\/tr>\n<tr>\n<td>Program Bench<\/td>\n<td>48.3<\/td>\n<td>53.6<\/td>\n<td>+11.0%<\/td>\n<\/tr>\n<tr>\n<td>MLS Bench Lite<\/td>\n<td>26.7<\/td>\n<td>35.1<\/td>\n<td>+31.5%<\/td>\n<\/tr>\n<tr>\n<td>MCPMark Verified<\/td>\n<td>72.8<\/td>\n<td>81.1<\/td>\n<td>+11.4%<\/td>\n<\/tr>\n<tr>\n<td>Tokens de racioc\u00ednio utilizados<\/td>\n<td>linha de base<\/td>\n<td>~30% menos<\/td>\n<td>mais eficiente<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Em benchmarks de agentes com ferramentas (MCP Atlas, MCPMark Verified e Claw 24\/7, desenvolvido internamente pela Kimi), a Moonshot relata ganhos de aproximadamente 10% sobre o K2.6 \u2014 menores, mas na dire\u00e7\u00e3o correta.<\/p>\n<p>Dados independentes come\u00e7am a surgir. A Artificial Analysis, que realiza suas pr\u00f3prias medi\u00e7\u00f5es em vez de republicar declara\u00e7\u00f5es do fabricante, posiciona o K2.7 Code com 42 pontos em seu \u00cdndice de Intelig\u00eancia composto, classificando-o em torno da 6\u00aa posi\u00e7\u00e3o entre os modelos de pesos abertos que acompanha. Seu desempenho medido \u00e9 de cerca de 55,8 tokens por segundo, com um tempo at\u00e9 o primeiro token de aproximadamente 2,25 segundos na API padr\u00e3o da Moonshot \u2014 um desempenho respeit\u00e1vel, embora n\u00e3o recorde, e o modo de racioc\u00ednio obrigat\u00f3rio significa que a lat\u00eancia real em tarefas completas de agente \u00e9 maior do que sugere esse valor inicial. (A Moonshot tamb\u00e9m oferece um endpoint de alta velocidade que opera muito mais r\u00e1pido, mas o modelo destacado aqui \u00e9 aquele avaliado nos benchmarks.)<\/p>\n<p>A compara\u00e7\u00e3o independente mais \u00fatil vem de testes diretos de programa\u00e7\u00e3o. No MCPMark Verified, um benchmark para agentes com ferramentas, o K2.7 Code obt\u00e9m 81,1 pontos, superando ligeiramente o Claude Opus 4.8, com 76,4 \u2014 por\u00e9m o GPT-5.5 lidera com folga, alcan\u00e7ando 92,9. O resumo honesto \u00e9: o K2.7 Code \u00e9 competitivo com modelos de ponta em algumas tarefas de agentes com ferramentas, mas fica claramente atr\u00e1s em outras. Ele n\u00e3o representa o novo estado da arte. Seu principal atrativo reside no custo.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Pricing_and_value\"><\/span>Pre\u00e7os e valor<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>\u00c9 aqui que o K2.7 Code se destaca. Abaixo, apresentamos os pre\u00e7os oficiais da API comparados aos atuais modelos fechados de ponta, por milh\u00e3o de tokens.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Modelo<\/th>\n<th>Entrada<\/th>\n<th>Sa\u00edda<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Kimi K2.7 Code<\/td>\n<td>$0.95<\/td>\n<td>$4.00<\/td>\n<\/tr>\n<tr>\n<td>Claude Opus 4.8<\/td>\n<td>$5.00<\/td>\n<td>$25.00<\/td>\n<\/tr>\n<tr>\n<td>GPT-5.5<\/td>\n<td>$5.00<\/td>\n<td>$30.00<\/td>\n<\/tr>\n<tr>\n<td>Claude Fable 5<\/td>\n<td>$10.00<\/td>\n<td>$50.00<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Na sa\u00edda, o K2.7 Code \u00e9 cerca de 6 vezes mais barato que o Opus 4.8 e mais de 12 vezes mais barato que o Fable 5. Os acertos de cache custam cerca de US$ 0,19 por milh\u00e3o de tokens de entrada, o que tem grande impacto em agentes que relem a mesma base de arquivos repetidamente. Ao combinar isso com a redu\u00e7\u00e3o de ~30% nos tokens de racioc\u00ednio por tarefa, a diferen\u00e7a efetiva de custo amplia-se ainda mais.<\/p>\n<p>A troca \u00e9 direta: menor capacidade bruta por chamada, mas o mesmo or\u00e7amento permite muitas mais chamadas. Para cargas de trabalho intensivas com agentes \u2014 bots de integra\u00e7\u00e3o cont\u00ednua, refatora\u00e7\u00f5es em massa, gera\u00e7\u00e3o automatizada de testes ou triagem automatizada \u2014 executar o K2.7 Code v\u00e1rias vezes e manter o melhor resultado pode superar uma \u00fanica chamada cara a um modelo de ponta. J\u00e1 para decis\u00f5es arquiteturais \u00fanicas e sutis, a taxa de acerto superior do modelo de ponta pode ainda valer o custo adicional. Se voc\u00ea est\u00e1 avaliando op\u00e7\u00f5es no mercado, nossa an\u00e1lise comparativa dos <a href=\"\/pt\/best-ai-coding-assistants\/\">melhores assistentes de programa\u00e7\u00e3o com IA<\/a> coloca isso em contexto.<\/p>\n<div class=\"convly-procons\">\n<div class=\"pros\">\n<h4>Pontos fortes<\/h4>\n<ul>\n<li>Pesos abertos sob licen\u00e7a MIT modificada, permissiva<\/li>\n<li>Custo por token extremamente baixo, com acertos de cache baratos<\/li>\n<li>Entrada nativa de imagens e v\u00eddeos, rara em modelos voltados \u00e0 programa\u00e7\u00e3o<\/li>\n<li>Contexto de 256K \u00e9 adequado para agentes que operam em reposit\u00f3rios inteiros<\/li>\n<li>Redu\u00e7\u00e3o de ~30% nos tokens de racioc\u00ednio reduz custos operacionais com agentes<\/li>\n<\/ul>\n<\/div>\n<div class=\"cons\">\n<h4>Limita\u00e7\u00f5es<\/h4>\n<ul>\n<li>Fica atr\u00e1s do GPT-5.5 em diversos benchmarks de programa\u00e7\u00e3o<\/li>\n<li>Modo de racioc\u00ednio obrigat\u00f3rio adiciona lat\u00eancia e impede chamadas r\u00e1pidas sem racioc\u00ednio<\/li>\n<li>Hospedagem local exige GPUs de classe data center<\/li>\n<li>Ganhos de destaque s\u00e3o reportados pelo fabricante em su\u00edtes internas<\/li>\n<li>N\u00e3o recomendado para conversa\u00e7\u00e3o geral \u2014 projetado especificamente para tarefas restritas<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<h2><span class=\"ez-toc-section\" id=\"How_to_use_it_API_vs_running_the_weights\"><\/span>Como utiliz\u00e1-lo: API versus execu\u00e7\u00e3o dos pesos localmente<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>O caminho mais simples \u00e9 usar a API. O K2.7 Code est\u00e1 dispon\u00edvel por meio da API Kimi da Moonshot e da CLI Kimi Code, al\u00e9m de seguir as conven\u00e7\u00f5es-padr\u00e3o de chamada de ferramentas, integrando-se facilmente \u00e0 maioria das configura\u00e7\u00f5es existentes de agentes. Se voc\u00ea constr\u00f3i sobre estruturas de agentes, consulte nosso guia sobre os <a href=\"\/pt\/best-ai-agent-frameworks-2026\/\">melhores frameworks para agentes de IA<\/a> para entender onde um modelo como este se encaixa.<\/p>\n<p>Executar os pesos abertos \u00e9 uma hist\u00f3ria diferente, e \u00e9 nesse ponto que \u00e9 preciso ter clareza. Assim como o Kimi K2 Thinking anterior, o K2.7 Code \u00e9 distribu\u00eddo pr\u00e9-quantizado em int4 nativo \u2014 os pesos MoE s\u00e3o armazenados em 4 bits mediante treinamento com consci\u00eancia de quantiza\u00e7\u00e3o, enquanto a aten\u00e7\u00e3o permanece em BF16 \u2014 raz\u00e3o pela qual a vers\u00e3o disponibilizada no Hugging Face ocupa cerca de 595 GB em disco, em vez dos ~2 TB que uma c\u00f3pia em BF16 integral de um modelo de 1 trilh\u00e3o de par\u00e2metros exigiria. (Uma vers\u00e3o em precis\u00e3o total em BF16 n\u00e3o \u00e9 distribu\u00edda pela Moonshot.) O servi\u00e7o \u00e9 compat\u00edvel com vLLM, SGLang e KTransformers.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Configura\u00e7\u00e3o<\/th>\n<th>Realidade<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>~8 GPUs da classe 80 GB (\u2248640 GB de VRAM), int4 nativo<\/td>\n<td>Configura\u00e7\u00e3o recomendada para produ\u00e7\u00e3o com contexto completo (\u22485x H200 equivale aproximadamente)<\/td>\n<\/tr>\n<tr>\n<td>4x RTX 4090 (96 GB), com descarga para CPU\/RAM<\/td>\n<td>Poss\u00edvel, mas com contexto limitado a ~64K\u2013128K e throughput muito inferior<\/td>\n<\/tr>\n<tr>\n<td>GPU consumidora \u00fanica<\/td>\n<td>N\u00e3o vi\u00e1vel para o modelo completo<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Em resumo, 'pesos abertos' n\u00e3o significa 'roda no seu laptop'. Mesmo em 4 bits nativos, os pesos sozinhos ultrapassam meio terabyte; portanto, para a maioria das equipes, a API \u00e9 a rota sensata, e a hospedagem local \u00e9 destinada a organiza\u00e7\u00f5es com or\u00e7amentos robustos em GPUs ou necessidades rigorosas de resid\u00eancia de dados. Se a execu\u00e7\u00e3o local for um requisito absoluto, considere op\u00e7\u00f5es menores em nosso <a href=\"\/pt\/best-local-llm-for-coding-2026\/\">best local LLM for coding<\/a> que cobre modelos compat\u00edveis com hardware real.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"How_it_compares_to_K26_and_rivals\"><\/span>Como se compara ao K2.6 e aos concorrentes<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Comparado ao K2.6, o K2.7 Code \u00e9 a melhor ferramenta para agentes de programa\u00e7\u00e3o sustentados e de m\u00faltiplas etapas, mas pior para todos os demais usos \u2014 a pr\u00f3pria orienta\u00e7\u00e3o da Moonshot \u00e9 manter o K2.6 para tarefas gerais. Essa divis\u00e3o \u00e9 intencional: um modelo otimizado para programa\u00e7\u00e3o com agentes, outro para amplitude funcional.<\/p>\n<p>Diante do campo aberto mais amplo, o rival \u00f3bvio de 2026 \u00e9 o GLM-5.2 da Zhipu, outro grande modelo aberto que busca a mesma lacuna de agentes especializados em programa\u00e7\u00e3o; analisamos esse modelo em nosso <a href=\"\/pt\/glm-5-2-explained-2026\/\">artigo explicativo sobre o GLM-5.2<\/a>, e colocamos os dois modelos frente a frente em <a href=\"\/pt\/glm-5-2-vs-kimi-k2-7-for-coding-2026\/\">GLM-5.2 vs Kimi K2.7 para programa\u00e7\u00e3o<\/a>. Uma compara\u00e7\u00e3o justa ainda \u00e9 dif\u00edcil de definir: a Zhipu lan\u00e7ou o GLM-5.2 sem divulgar n\u00fameros de benchmarks oficiais, e terceiros neutros ainda n\u00e3o publicaram pontua\u00e7\u00f5es diretamente compar\u00e1veis em tarefas de programa\u00e7\u00e3o com agentes para os dois modelos; portanto, qualquer afirma\u00e7\u00e3o sobre um \"vencedor\" hoje \u00e9 prematura. Contra os modelos fechados de ponta, o K2.7 Code \u00e9 uma op\u00e7\u00e3o voltada ao custo-benef\u00edcio, n\u00e3o um l\u00edder em capacidades: voc\u00ea aceita uma lacuna mensur\u00e1vel em rela\u00e7\u00e3o ao GPT-5.5 em troca de pesos abertos e de um pre\u00e7o que pode ser at\u00e9 dez vezes menor.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"FAQ\"><\/span>Perguntas frequentes<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<h3>O Kimi K2.7 Code \u00e9 um chatbot ou um modelo especializado em programa\u00e7\u00e3o?<\/h3>\n<p>Trata-se de um modelo especializado em programa\u00e7\u00e3o, projetado para tarefas de software com agentes \u2014 como planejamento, edi\u00e7\u00e3o de arquivos, execu\u00e7\u00e3o de ferramentas e depura\u00e7\u00e3o em m\u00faltiplas etapas. N\u00e3o \u00e9 posicionado como um chatbot gen\u00e9rico. A Moonshot recomenda o modelo anterior, K2.6, para conversa\u00e7\u00f5es gerais e reserva o K2.7 Code exclusivamente para tarefas de programa\u00e7\u00e3o.<\/p>\n<h3>Quanto custa o Kimi K2.7 Code?<\/h3>\n<p>A API lista US$ 0,95 por milh\u00e3o de tokens de entrada e US$ 4,00 por milh\u00e3o de tokens de sa\u00edda, com acertos no cache custando cerca de US$ 0,19 por milh\u00e3o de tokens de entrada. Isso representa aproximadamente 6 vezes menos custo na sa\u00edda em compara\u00e7\u00e3o com o Claude Opus 4.8 e mais de 12 vezes menos que o Claude Fable 5.<\/p>\n<h3>Posso executar o Kimi K2.7 Code localmente?<\/h3>\n<p>Sim, os pesos s\u00e3o p\u00fablicos sob uma licen\u00e7a MIT modificada, mas trata-se de um modelo com 1 trilh\u00e3o de par\u00e2metros que ocupa cerca de 595 GB em disco mesmo em seu formato nativo int4. Uma configura\u00e7\u00e3o realista para produ\u00e7\u00e3o exige aproximadamente 8 GPUs da classe de 80 GB (~640 GB de VRAM) \u2014 o equivalente aproximado seria cinco GPUs H200. Um sistema com 4 GPUs RTX 4090 consegue execut\u00e1-lo apenas com descarga para CPU\/RAM, contexto reduzido e menor taxa de transfer\u00eancia, e nenhuma GPU consumidora individual consegue carregar o modelo completo.<\/p>\n<h3>Quanto melhor \u00e9 o K2.7 Code em compara\u00e7\u00e3o com o K2.6?<\/h3>\n<p>A Moonshot relata ganhos de +21,8% no Kimi Code Bench v2, +11,0% no Program Bench, +31,5% no MLS Bench Lite e +11,4% no MCPMark Verified, al\u00e9m de cerca de 30% menos tokens de racioc\u00ednio por tarefa. Esses valores s\u00e3o divulgados pela pr\u00f3pria fornecedora nos benchmarks internos da Moonshot, portanto devem ser considerados indicativos.<\/p>\n<h3>O Kimi K2.7 Code suporta imagens?<\/h3>\n<p>Sim. Ele inclui um codificador visual MoonViT de 400 milh\u00f5es de par\u00e2metros e aceita entradas de texto, imagem e v\u00eddeo. Isso permite que ele opere a partir de capturas de tela, diagramas ou grava\u00e7\u00f5es curtas \u2014 algo incomum para um modelo aberto focado em programa\u00e7\u00e3o.<\/p>\n<h3>O Kimi K2.7 Code \u00e9 melhor que o GPT-5.5 para programa\u00e7\u00e3o?<\/h3>\n<p>N\u00e3o na maioria dos benchmarks. O GPT-5.5 lidera no Program Bench (69,1 contra 53,6) e no MCPMark Verified (92,9 contra 81,1). A vantagem do K2.7 Code est\u00e1 no custo: a diferen\u00e7a de pre\u00e7o significa que voc\u00ea pode execut\u00e1-lo muito mais vezes com o mesmo or\u00e7amento, o que pode representar uma vit\u00f3ria em cargas de trabalho ag\u00eanticas de alto volume.<\/p>\n<h3>O que \u00e9 o \"modo de racioc\u00ednio\" e posso desativ\u00e1-lo?<\/h3>\n<p>O modo de racioc\u00ednio corresponde \u00e0 etapa interna de racioc\u00ednio do modelo antes de gerar sua resposta. No K2.7 Code, esse modo \u00e9 obrigat\u00f3rio \u2014 n\u00e3o h\u00e1 um modo sem racioc\u00ednio, e a API retorna um erro se voc\u00ea tentar desativ\u00e1-lo. Alega-se que, agora, o modelo alcan\u00e7a respostas utilizando cerca de 30% menos tokens de racioc\u00ednio do que o K2.6.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Bottom_line\"><\/span>Conclus\u00e3o<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>O Kimi K2.7 Code \u00e9 um lan\u00e7amento preciso e deliberadamente restrito: um agente de programa\u00e7\u00e3o de 1 trilh\u00e3o de par\u00e2metros com pesos abertos que troca uma lacuna real de capacidade em rela\u00e7\u00e3o ao GPT-5.5 por um pre\u00e7o dif\u00edcil de contestar e por uma licen\u00e7a que lhe permite possuir o modelo integralmente. Ele n\u00e3o liderar\u00e1 os rankings, e o modo de racioc\u00ednio obrigat\u00f3rio, somado ao requisito de hardware de data center \u2014 com mais de meio terabyte de pesos mesmo em 4 bits nativos \u2014 significam que ele n\u00e3o \u00e9 adequado para todos. Contudo, para equipes que executam cargas de trabalho ag\u00eanticas de programa\u00e7\u00e3o em alta frequ\u00eancia, onde o custo por tarefa se acumula rapidamente, trata-se de uma das op\u00e7\u00f5es mais cred\u00edveis em termos de custo-benef\u00edcio de 2026. Utilize a API, a menos que voc\u00ea tenha as GPUs necess\u00e1rias e uma raz\u00e3o espec\u00edfica para hospedagem pr\u00f3pria; fa\u00e7a testes de benchmark em seus pr\u00f3prios reposit\u00f3rios antes de adot\u00e1-lo definitivamente; e mantenha o K2.6 dispon\u00edvel para conversa\u00e7\u00f5es, j\u00e1 que ele nunca foi projetado para programa\u00e7\u00e3o.<\/p>\n<p><!--related-block--><\/p>\n<div class=\"convly-related\">\n<h2><span class=\"ez-toc-section\" id=\"Related_articles\"><\/span>Artigos relacionados<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<ul>\n<li><a href=\"https:\/\/convly.ai\/pt\/gpt-5-6-what-we-know-2026\/\">GPT-5.6: O Que Sabemos Contra o Que Foi Vazado (2026)<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/pt\/glm-5-2-explained-2026\/\">Explicando o GLM 5.2: Modelo Aberto de Programa\u00e7\u00e3o com Janela de Contexto de 1 milh\u00e3o de Tokens da Zhipu<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/pt\/ollama-vs-jan-2026\/\">Ollama vs Jan: Qual Aplicativo Local de IA Vence em 2026?<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/pt\/lm-studio-complete-guide-2026\/\">LM Studio: O Guia Completo (2026)<\/a><\/li>\n<\/ul>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>Moonshot&#8217;s Kimi K2.7 Code is a 1T-parameter open-weight model built only for agentic coding. We verify the specs, the vendor benchmarks, the int4 hardware reality, and whether its aggressive $0.95\/$4.00 pricing actually beats the closed frontier.<\/p>","protected":false},"author":1,"featured_media":1184,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[3],"tags":[769,767,781,750,782,619,766],"class_list":["post-1179","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-llms","tag-agentic-coding","tag-coding-llm","tag-kimi-k2-7-code","tag-llms","tag-moe","tag-moonshot-ai","tag-open-weights"],"_links":{"self":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts\/1179","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/comments?post=1179"}],"version-history":[{"count":1,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts\/1179\/revisions"}],"predecessor-version":[{"id":1185,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts\/1179\/revisions\/1185"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/media\/1184"}],"wp:attachment":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/media?parent=1179"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/categories?post=1179"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/tags?post=1179"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}