Is Kimi K2.7 Code a chatbot or a coding model?

It is a coding-specialized model built for agentic software tasks — planning, editing files, running tools, and debugging across many steps. It is not positioned as a general chatbot. Moonshot recommends the older K2.6 for general conversation and reserves K2.7 Code for coding work.

How much does Kimi K2.7 Code cost?

The API lists $0.95 per million input tokens and $4.00 per million output tokens, with cache hits around $0.19 per million input. That is roughly 6x cheaper than Claude Opus 4.8 on output and over 12x cheaper than Claude Fable 5.

Can I run Kimi K2.7 Code locally?

Yes, the weights are public under a Modified MIT license, but it is a 1T-parameter model that takes about 595 GB on disk even in its native int4 format. A realistic production setup needs roughly 8 80GB-class GPUs (~640 GB VRAM) — about five H200s is a rough equivalent. A 4x RTX 4090 rig can run it only with CPU/RAM offload, reduced context, and lower throughput, and no single consumer GPU will hold the full model.

How much better is K2.7 Code than K2.6?

Moonshot reports +21.8% on Kimi Code Bench v2, +11.0% on Program Bench, +31.5% on MLS Bench Lite, and +11.4% on MCPMark Verified, plus about 30% fewer reasoning tokens per task. These are vendor-reported figures on Moonshot's own benchmarks, so treat them as directional.

Does Kimi K2.7 Code support images?

Yes. It includes a 400M-parameter MoonViT vision encoder and accepts text, image, and video input. That lets it work from screenshots, diagrams, or short recordings — unusual for a coding-focused open model.

Is Kimi K2.7 Code better than GPT-5.5 for coding?

Not on most benchmarks. GPT-5.5 leads on Program Bench (69.1 vs 53.6) and MCPMark Verified (92.9 vs 81.1). K2.7 Code's advantage is cost: the price gap means you can run it far more often for the same budget, which can win on high-volume agentic workloads.

What is "thinking mode" and can I turn it off?

Thinking mode is the model's internal reasoning step before it answers. In K2.7 Code it is mandatory — there is no non-thinking mode, and the API returns an error if you try to disable it. The efficiency claim is that it now reaches answers using ~30% fewer reasoning tokens than K2.6.

Kimi K2.7 Code Explicado: Modelo de Codificação Aberto de 1 trilhão de parâmetros da Moonshot

A Moonshot AI lançou o Kimi K2.7 Code em 12 de junho de 2026, e o nome é mais significativo do que o habitual. Este não é um novo chatbot genérico chamado 'Kimi 2.7'. Trata-se de um modelo exclusivamente voltado para programação: um sistema esparsamente ativo de Mixture-of-Experts com 1 trilhão de parâmetros, ajustado especificamente para planejar alterações, editar arquivos, executar ferramentas e realizar tarefas de software complexas e multi-etapas. Para conversas cotidianas, a Moonshot ainda recomenda o uso da versão anterior, K2.6.

O foco principal é a eficiência. O K2.7 Code afirma obter pontuações superiores em tarefas de programação comparado ao K2.6, consumindo cerca de 30% menos tokens de raciocínio; seu preço é de US$ 0,95 por milhão de tokens de entrada e US$ 4,00 por milhão de tokens de saída. Trata-se de uma fração do custo cobrado pelos principais modelos fechados. Os pesos do modelo são públicos sob licença MIT modificada, permitindo que você o execute localmente — desde que possua hardware adequado para um modelo que ocupa aproximadamente 595 GB em disco, mesmo em sua forma nativa de 4 bits. Abaixo, detalhamos o que é real, o que foi informado pelo fornecedor e onde esse modelo se posiciona.

Principais conclusões

Exclusivamente para programação, não é um chatbot. 'K2.7 Code' é um modelo especializado em agentes de programação; a Moonshot recomenda o K2.6 para uso geral.
MoE de 1 trilhão de parâmetros, com 32 bilhões ativos. 384 especialistas (8 roteados + 1 compartilhado), 61 camadas, contexto de 256K tokens, vocabulário de 160K tokens, atenção MLA e um codificador multimodal MoonViT de 400 milhões de parâmetros para entradas de imagem e vídeo.
O modo de raciocínio é obrigatório. Não há modo sem raciocínio; desativá-lo resulta em erro de API.
Ganhos relatados pelo fornecedor em comparação ao K2.6: +21,8% no Kimi Code Bench v2, +11,0% no Program Bench e +31,5% no MLS Bench Lite, com cerca de 30% menos tokens de raciocínio.
Precificação agressiva: US$ 0,95 por milhão de tokens de entrada / US$ 4,00 por milhão de tokens de saída, com acertos de cache próximos a US$ 0,19 — cerca de 6 vezes mais barato que o Claude Opus 4.8 e até aproximadamente 12 vezes mais barato que o Claude Fable 5 na saída.
Pesos abertos, exigências pesadas de hardware. Licença MIT modificada no Hugging Face; os pesos são distribuídos nativamente em int4 (~595 GB), e a inferência local realista ainda exige aproximadamente 8 GPUs da classe de 80 GB (~640 GB de VRAM).

O que realmente é o Kimi K2.7 Code

O K2.7 Code é a mais recente iteração da linha Kimi em rápida evolução da Moonshot, sendo o primeiro modelo lançado pela empresa como uma versão especializada em programação, em vez de um modelo genérico com um modo adicional para programação. Seu objetivo projetual é engenharia de software de longo prazo: o tipo de trabalho em que um agente lê um repositório, planeja uma alteração, edita diversos arquivos, executa uma compilação, analisa o erro retornado e itera sobre a solução. Ele foi construído para agir, não para conversar.

Essa ênfase reflete-se nas configurações padrão. O modelo sempre opera com o modo 'raciocínio' ativado — não há como desativá-lo, e a API rejeita solicitações que tentem fazê-lo. A aposta é que, para agentes especializados em programação, os rastros de raciocínio justificam seu custo, e os ganhos de eficiência do K2.7 mantêm esse custo sob controle. Caso você precise de um modelo que responda rapidamente a perguntas simples com baixo custo, a própria Moonshot recomenda usar o K2.6. Cobrimos toda a família em nosso explicador sobre o Moonshot Kimi.

Especificações e arquitetura

A arquitetura é uma MoE esparsa. Dos 1 trilhão de parâmetros totais, apenas cerca de 32 bilhões são ativados por token, o que mantém o custo e a latência de inferência muito abaixo do que seria esperado de um modelo denso de 1 trilhão de parâmetros.

Especificações	Kimi K2.7 Code
Número total de parâmetros	1 trilhão (MoE)
Parâmetros ativos por token	~32 bilhões
Especialistas	384 (8 roteados + 1 compartilhado)
Camadas	61 (1 densa)
Janela de contexto	256K tokens (262.144)
Vocabulário	160K
Atenção	MLA (Atenção Latente Multicabeça)
Modalidade	Texto, imagem e vídeo (por meio do codificador MoonViT de 400 milhões de parâmetros)
Precisão nativa	INT4 (pesos MoE), atenção em BF16
Modo de raciocínio	Obrigatório (não pode ser desativado)
Licença	Licença MIT modificada (pesos abertos)

A entrada multimodal nativa é um diferencial genuíno para um modelo voltado à programação. Você pode fornecer-lhe uma captura de tela de uma interface com falhas, um diagrama ou uma breve gravação de tela, juntamente com o código-fonte. A maioria dos modelos abertos especializados em programação aceita apenas texto, portanto essa característica amplia significativamente os casos de uso práticos — como depurar a partir de uma captura de tela ou implementar diretamente a partir de um protótipo — sem exigir um pipeline visual separado.

Os ganhos nos benchmarks, interpretados com honestidade

Os números de destaque divulgados pela Moonshot comparam o K2.7 Code ao K2.6 em suas próprias suítes internas. Trata-se de dados reportados pelo fabricante e baseados em benchmarks da própria Moonshot; portanto, devem ser considerados indicativos, não como uma verdade neutra e objetiva.

Benchmark (reportado pelo fabricante)	K2.6	K2.7 Code	Variação
Kimi Code Bench v2	50.9	62.0	+21.8%
Program Bench	48.3	53.6	+11.0%
MLS Bench Lite	26.7	35.1	+31.5%
MCPMark Verified	72.8	81.1	+11.4%
Tokens de raciocínio utilizados	linha de base	~30% menos	mais eficiente

Em benchmarks de agentes com ferramentas (MCP Atlas, MCPMark Verified e Claw 24/7, desenvolvido internamente pela Kimi), a Moonshot relata ganhos de aproximadamente 10% sobre o K2.6 — menores, mas na direção correta.

Dados independentes começam a surgir. A Artificial Analysis, que realiza suas próprias medições em vez de republicar declarações do fabricante, posiciona o K2.7 Code com 42 pontos em seu Índice de Inteligência composto, classificando-o em torno da 6ª posição entre os modelos de pesos abertos que acompanha. Seu desempenho medido é de cerca de 55,8 tokens por segundo, com um tempo até o primeiro token de aproximadamente 2,25 segundos na API padrão da Moonshot — um desempenho respeitável, embora não recorde, e o modo de raciocínio obrigatório significa que a latência real em tarefas completas de agente é maior do que sugere esse valor inicial. (A Moonshot também oferece um endpoint de alta velocidade que opera muito mais rápido, mas o modelo destacado aqui é aquele avaliado nos benchmarks.)

A comparação independente mais útil vem de testes diretos de programação. No MCPMark Verified, um benchmark para agentes com ferramentas, o K2.7 Code obtém 81,1 pontos, superando ligeiramente o Claude Opus 4.8, com 76,4 — porém o GPT-5.5 lidera com folga, alcançando 92,9. O resumo honesto é: o K2.7 Code é competitivo com modelos de ponta em algumas tarefas de agentes com ferramentas, mas fica claramente atrás em outras. Ele não representa o novo estado da arte. Seu principal atrativo reside no custo.

Preços e valor

É aqui que o K2.7 Code se destaca. Abaixo, apresentamos os preços oficiais da API comparados aos atuais modelos fechados de ponta, por milhão de tokens.

Modelo	Entrada	Saída
Kimi K2.7 Code	$0.95	$4.00
Claude Opus 4.8	$5.00	$25.00
GPT-5.5	$5.00	$30.00
Claude Fable 5	$10.00	$50.00

Na saída, o K2.7 Code é cerca de 6 vezes mais barato que o Opus 4.8 e mais de 12 vezes mais barato que o Fable 5. Os acertos de cache custam cerca de US$ 0,19 por milhão de tokens de entrada, o que tem grande impacto em agentes que relem a mesma base de arquivos repetidamente. Ao combinar isso com a redução de ~30% nos tokens de raciocínio por tarefa, a diferença efetiva de custo amplia-se ainda mais.

A troca é direta: menor capacidade bruta por chamada, mas o mesmo orçamento permite muitas mais chamadas. Para cargas de trabalho intensivas com agentes — bots de integração contínua, refatorações em massa, geração automatizada de testes ou triagem automatizada — executar o K2.7 Code várias vezes e manter o melhor resultado pode superar uma única chamada cara a um modelo de ponta. Já para decisões arquiteturais únicas e sutis, a taxa de acerto superior do modelo de ponta pode ainda valer o custo adicional. Se você está avaliando opções no mercado, nossa análise comparativa dos melhores assistentes de programação com IA coloca isso em contexto.

Pontos fortes

Pesos abertos sob licença MIT modificada, permissiva
Custo por token extremamente baixo, com acertos de cache baratos
Entrada nativa de imagens e vídeos, rara em modelos voltados à programação
Contexto de 256K é adequado para agentes que operam em repositórios inteiros
Redução de ~30% nos tokens de raciocínio reduz custos operacionais com agentes

Limitações

Fica atrás do GPT-5.5 em diversos benchmarks de programação
Modo de raciocínio obrigatório adiciona latência e impede chamadas rápidas sem raciocínio
Hospedagem local exige GPUs de classe data center
Ganhos de destaque são reportados pelo fabricante em suítes internas
Não recomendado para conversação geral — projetado especificamente para tarefas restritas

Como utilizá-lo: API versus execução dos pesos localmente

O caminho mais simples é usar a API. O K2.7 Code está disponível por meio da API Kimi da Moonshot e da CLI Kimi Code, além de seguir as convenções-padrão de chamada de ferramentas, integrando-se facilmente à maioria das configurações existentes de agentes. Se você constrói sobre estruturas de agentes, consulte nosso guia sobre os melhores frameworks para agentes de IA para entender onde um modelo como este se encaixa.

Executar os pesos abertos é uma história diferente, e é nesse ponto que é preciso ter clareza. Assim como o Kimi K2 Thinking anterior, o K2.7 Code é distribuído pré-quantizado em int4 nativo — os pesos MoE são armazenados em 4 bits mediante treinamento com consciência de quantização, enquanto a atenção permanece em BF16 — razão pela qual a versão disponibilizada no Hugging Face ocupa cerca de 595 GB em disco, em vez dos ~2 TB que uma cópia em BF16 integral de um modelo de 1 trilhão de parâmetros exigiria. (Uma versão em precisão total em BF16 não é distribuída pela Moonshot.) O serviço é compatível com vLLM, SGLang e KTransformers.

Configuração	Realidade
~8 GPUs da classe 80 GB (≈640 GB de VRAM), int4 nativo	Configuração recomendada para produção com contexto completo (≈5x H200 equivale aproximadamente)
4x RTX 4090 (96 GB), com descarga para CPU/RAM	Possível, mas com contexto limitado a ~64K–128K e throughput muito inferior
GPU consumidora única	Não viável para o modelo completo

Em resumo, 'pesos abertos' não significa 'roda no seu laptop'. Mesmo em 4 bits nativos, os pesos sozinhos ultrapassam meio terabyte; portanto, para a maioria das equipes, a API é a rota sensata, e a hospedagem local é destinada a organizações com orçamentos robustos em GPUs ou necessidades rigorosas de residência de dados. Se a execução local for um requisito absoluto, considere opções menores em nosso melhor LLM local guia para programação que cobre modelos compatíveis com hardware real.

Como se compara ao K2.6 e aos concorrentes

Comparado ao K2.6, o K2.7 Code é a melhor ferramenta para agentes de programação sustentados e de múltiplas etapas, mas pior para todos os demais usos — a própria orientação da Moonshot é manter o K2.6 para tarefas gerais. Essa divisão é intencional: um modelo otimizado para programação com agentes, outro para amplitude funcional.

Diante do campo aberto mais amplo, o rival óbvio de 2026 é o GLM-5.2 da Zhipu, outro grande modelo aberto que busca a mesma lacuna de agentes especializados em programação; analisamos esse modelo em nosso artigo explicativo sobre o GLM-5.2, e colocamos os dois modelos frente a frente em GLM-5.2 vs Kimi K2.7 para programação. Uma comparação justa ainda é difícil de definir: a Zhipu lançou o GLM-5.2 sem divulgar números de benchmarks oficiais, e terceiros neutros ainda não publicaram pontuações diretamente comparáveis em tarefas de programação com agentes para os dois modelos; portanto, qualquer afirmação sobre um "vencedor" hoje é prematura. Contra os modelos fechados de ponta, o K2.7 Code é uma opção voltada ao custo-benefício, não um líder em capacidades: você aceita uma lacuna mensurável em relação ao GPT-5.5 em troca de pesos abertos e de um preço que pode ser até dez vezes menor.

Perguntas frequentes

O Kimi K2.7 Code é um chatbot ou um modelo especializado em programação?

Trata-se de um modelo especializado em programação, projetado para tarefas de software com agentes — como planejamento, edição de arquivos, execução de ferramentas e depuração em múltiplas etapas. Não é posicionado como um chatbot genérico. A Moonshot recomenda o modelo anterior, K2.6, para conversações gerais e reserva o K2.7 Code exclusivamente para tarefas de programação.

Quanto custa o Kimi K2.7 Code?

A API lista US$ 0,95 por milhão de tokens de entrada e US$ 4,00 por milhão de tokens de saída, com acertos no cache custando cerca de US$ 0,19 por milhão de tokens de entrada. Isso representa aproximadamente 6 vezes menos custo na saída em comparação com o Claude Opus 4.8 e mais de 12 vezes menos que o Claude Fable 5.

Posso executar o Kimi K2.7 Code localmente?

Sim, os pesos são públicos sob uma licença MIT modificada, mas trata-se de um modelo com 1 trilhão de parâmetros que ocupa cerca de 595 GB em disco mesmo em seu formato nativo int4. Uma configuração realista para produção exige aproximadamente 8 GPUs da classe de 80 GB (~640 GB de VRAM) — o equivalente aproximado seria cinco GPUs H200. Um sistema com 4 GPUs RTX 4090 consegue executá-lo apenas com descarga para CPU/RAM, contexto reduzido e menor taxa de transferência, e nenhuma GPU consumidora individual consegue carregar o modelo completo.

Quanto melhor é o K2.7 Code em comparação com o K2.6?

A Moonshot relata ganhos de +21,8% no Kimi Code Bench v2, +11,0% no Program Bench, +31,5% no MLS Bench Lite e +11,4% no MCPMark Verified, além de cerca de 30% menos tokens de raciocínio por tarefa. Esses valores são divulgados pela própria fornecedora nos benchmarks internos da Moonshot, portanto devem ser considerados indicativos.

O Kimi K2.7 Code suporta imagens?

Sim. Ele inclui um codificador visual MoonViT de 400 milhões de parâmetros e aceita entradas de texto, imagem e vídeo. Isso permite que ele opere a partir de capturas de tela, diagramas ou gravações curtas — algo incomum para um modelo aberto focado em programação.

O Kimi K2.7 Code é melhor que o GPT-5.5 para programação?

Não na maioria dos benchmarks. O GPT-5.5 lidera no Program Bench (69,1 contra 53,6) e no MCPMark Verified (92,9 contra 81,1). A vantagem do K2.7 Code está no custo: a diferença de preço significa que você pode executá-lo muito mais vezes com o mesmo orçamento, o que pode representar uma vitória em cargas de trabalho agênticas de alto volume.

O que é o "modo de raciocínio" e posso desativá-lo?

O modo de raciocínio corresponde à etapa interna de raciocínio do modelo antes de gerar sua resposta. No K2.7 Code, esse modo é obrigatório — não há um modo sem raciocínio, e a API retorna um erro se você tentar desativá-lo. Alega-se que, agora, o modelo alcança respostas utilizando cerca de 30% menos tokens de raciocínio do que o K2.6.

Conclusão

O Kimi K2.7 Code é um lançamento preciso e deliberadamente restrito: um agente de programação de 1 trilhão de parâmetros com pesos abertos que troca uma lacuna real de capacidade em relação ao GPT-5.5 por um preço difícil de contestar e por uma licença que lhe permite possuir o modelo integralmente. Ele não liderará os rankings, e o modo de raciocínio obrigatório, somado ao requisito de hardware de data center — com mais de meio terabyte de pesos mesmo em 4 bits nativos — significam que ele não é adequado para todos. Contudo, para equipes que executam cargas de trabalho agênticas de programação em alta frequência, onde o custo por tarefa se acumula rapidamente, trata-se de uma das opções mais credíveis em termos de custo-benefício de 2026. Utilize a API, a menos que você tenha as GPUs necessárias e uma razão específica para hospedagem própria; faça testes de benchmark em seus próprios repositórios antes de adotá-lo definitivamente; e mantenha o K2.6 disponível para conversações, já que ele nunca foi projetado para programação.