Moonshot AI lanzó Kimi K2.7 Code el 12 de junio de 2026, y en este caso el nombre tiene una importancia inusual. No se trata de un nuevo chatbot general llamado «Kimi 2.7», sino de un modelo exclusivo para programación: un sistema disperso de mezcla de expertos (MoE) de 1 billón de parámetros ajustado específicamente para planificar cambios, editar archivos, ejecutar herramientas y resolver tareas de software complejas y multietapa. Para conversaciones habituales, Moonshot sigue recomendando el modelo anterior K2.6.
El argumento central es la eficiencia. K2.7 Code afirma lograr puntuaciones superiores en tareas de programación comparado con K2.6, consumiendo aproximadamente un 30 % menos de tokens de razonamiento; su precio es de 0,95 USD por millón de tokens de entrada y 4,00 USD por millón de tokens de salida. Esto representa solo una fracción del costo de los modelos cerrados punteros. Sus pesos están disponibles públicamente bajo una licencia MIT modificada, por lo que también puedes ejecutarlo localmente —si dispones del hardware necesario para un modelo que ocupa unos 595 GB en disco incluso en su formato nativo de 4 bits. A continuación detallamos qué es real, qué ha sido reportado por el fabricante y dónde se posiciona este modelo.
Conclusiones clave
- Exclusivo para programación, no es un chatbot. «K2.7 Code» es un modelo especializado en agentes para programación; Moonshot recomienda K2.6 para usos generales.
- MoE de 1 billón de parámetros, con 32 mil millones activos. 384 expertos (8 seleccionados mediante enrutamiento + 1 compartido), 61 capas, contexto de 256 K, vocabulario de 160 K, mecanismo de atención MLA y un codificador visual MoonViT de 400 millones de parámetros para entradas de imagen y vídeo.
- El razonamiento es obligatorio. No existe un modo sin razonamiento; desactivarlo provoca un error de API.
- Mejoras reportadas por el fabricante frente a K2.6: +21,8 % en Kimi Code Bench v2, +11,0 % en Program Bench y +31,5 % en MLS Bench Lite, con aproximadamente un 30 % menos de tokens de razonamiento.
- Precios agresivos: 0,95 USD por millón de tokens de entrada y 4,00 USD por millón de tokens de salida; los aciertos en caché cuestan cerca de 0,19 USD —aproximadamente 6 veces menos que Claude Opus 4.8 y hasta unas 12 veces menos que Claude Fable 5 en tokens de salida.
- Pesos abiertos, hardware exigente. Licencia MIT modificada en Hugging Face; los pesos se distribuyen nativamente en formato int4 (~595 GB), y para inferencia local realista aún se requieren aproximadamente 8 GPU de clase 80 GB (~640 GB de VRAM).
Qué es realmente Kimi K2.7 Code
K2.7 Code es la última incorporación a la línea Kimi de Moonshot, en constante evolución, y es el primer modelo que la empresa ha separado como versión especializada únicamente en programación, en lugar de ser un modelo general con un modo adicional para código. Su objetivo de diseño es la ingeniería de software a largo plazo: el tipo de trabajo en el que un agente lee un repositorio, planea un cambio, edita varios archivos, ejecuta una compilación, analiza el error resultante y itera sobre la solución. Está construido para actuar, no para conversar.
Esa focalización se refleja en sus valores predeterminados. El modelo siempre se ejecuta con el modo «razonamiento» activado —no hay forma de desactivarlo, y la API rechaza cualquier solicitud que intente hacerlo. La apuesta es que, para la programación basada en agentes, los rastros de razonamiento justifican su costo, y que las mejoras en eficiencia de K2.7 mantienen dicho costo bajo control. Si buscas un modelo que responda rápidamente y de forma económica a una pregunta sencilla, Moonshot recomienda explícitamente utilizar K2.6. Analizamos la familia completa en nuestra guía explicativa sobre Moonshot Kimi.
Especificaciones y arquitectura
La arquitectura es una MoE dispersa. De los 1 billón de parámetros totales, solo unos 32 mil millones se activan por token, lo que mantiene el costo y la latencia de la inferencia muy por debajo de lo que implicaría un modelo denso de 1 billón de parámetros.
| Especificaciones | Kimi K2.7 Code |
|---|---|
| Parámetros totales | 1 billón (MoE) |
| Activos por token | ~32 mil millones |
| Expertos | 384 (8 enrutados + 1 compartido) |
| Capas | 61 (1 densa) |
| Ventana de contexto | 256K tokens (262.144) |
| Vocabulario | 160K |
| Atención | MLA (Atención latente multi-cabeza) |
| Modalidad | Texto, imagen y vídeo (mediante el codificador MoonViT de 400 millones de parámetros) |
| Precisión nativa | INT4 (pesos MoE), atención en BF16 |
| Modo de razonamiento | Obligatorio (no se puede desactivar) |
| Licencia | Licencia MIT modificada (pesos abiertos) |
La entrada multimodal nativa constituye una verdadera diferenciación para un modelo especializado en programación. Puedes proporcionarle una captura de pantalla de una interfaz rota, un diagrama o una breve grabación de pantalla junto con el código. La mayoría de los modelos abiertos centrados en programación son exclusivamente textuales, por lo que esta característica amplía significativamente los casos de uso prácticos —como depurar a partir de una captura de pantalla o implementar a partir de un mockup— sin necesidad de una canalización visual independiente.
Resultados reales en las pruebas de referencia
Los resultados destacados de Moonshot comparan K2.7 Code con K2.6 en sus propias suites internas. Estos datos provienen del fabricante y emplean benchmarks desarrollados por Moonshot, por lo que deben considerarse orientativos más que como una verdad objetiva neutral.
| Benchmark (reportado por el fabricante) | K2.6 | K2.7 Code | Variación |
|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 | +21.8% |
| Program Bench | 48.3 | 53.6 | +11.0% |
| MLS Bench Lite | 26.7 | 35.1 | +31.5% |
| MCPMark Verificado | 72.8 | 81.1 | +11.4% |
| Tokens de razonamiento utilizados | línea base | ~30 % menos | más eficiente |
En benchmarks de agentes con herramientas (MCP Atlas, MCPMark Verificado y Claw 24/7 de Kimi), Moonshot informa mejoras de aproximadamente un 10 % frente a K2.6: menores, pero en la dirección correcta.
Ya empiezan a aparecer datos independientes. Artificial Analysis, que realiza sus propias mediciones en lugar de republicar afirmaciones del fabricante, sitúa a K2.7 Code en el puesto 42 de su Índice de Inteligencia compuesto, ubicándolo alrededor del puesto #6 entre los modelos de pesos abiertos que sigue. Su velocidad de generación es de aproximadamente 55,8 tokens por segundo, con un tiempo hasta el primer token de ~2,25 segundos en la API estándar de Moonshot: un rendimiento respetable, aunque no récord; además, al ser obligatorio el modo de razonamiento, la latencia real en tareas completas de agente resulta mayor que lo indicado por el tiempo hasta el primer token. (Moonshot también ofrece un punto final de alta velocidad mucho más rápido, pero el modelo destacado aquí es el que se ha sometido a estas pruebas.)
La comparación independiente más útil proviene de pruebas directas de programación. En MCPMark Verificado, un benchmark para agentes con herramientas, K2.7 Code obtiene una puntuación de 81,1, superando ligeramente a Claude Opus 4.8 (76,4), aunque GPT-5.5 lidera claramente con 92,9. En Program Bench, propio de Moonshot, GPT-5.5 obtiene 69,1 frente a 53,6 de K2.7 Code. El resumen honesto es el siguiente: K2.7 Code es competitivo con los modelos punteros en algunas tareas de agentes con herramientas, pero queda claramente rezagado en otras. No representa el nuevo estado del arte; su principal ventaja radica en su precio.
Precios y relación calidad-precio
Aquí es donde K2.7 Code destaca. A continuación se muestra su tarifa publicada para la API, comparada con la de los actuales modelos punteros cerrados, por cada millón de tokens.
| Modelo | Entrada | Salida |
|---|---|---|
| Kimi K2.7 Code | $0.95 | $4.00 |
| Claude Opus 4.8 | $5.00 | $25.00 |
| GPT-5.5 | $5.00 | $30.00 |
| Claude Fable 5 | $10.00 | $50.00 |
En la salida, K2.7 Code es aproximadamente 6 veces más económico que Opus 4.8 y más de 12 veces más barato que Fable 5. Los aciertos en caché cuestan alrededor de 0,19 USD por millón de tokens de entrada, lo cual es muy relevante para agentes que vuelven a leer repetidamente los mismos archivos. Al combinar esto con una reducción de ~30 % en los tokens de razonamiento por tarea, la brecha efectiva de costes se amplía aún más.
El intercambio es sencillo: menor capacidad bruta por llamada, pero con el mismo presupuesto se pueden realizar muchas más llamadas. Para cargas de trabajo intensivas de agentes —bots de integración continua, refactorizaciones masivas, generación de pruebas, clasificación automática de incidencias— ejecutar K2.7 Code varias veces y conservar el mejor resultado puede superar a una única llamada cara a un modelo puntero. Para una decisión arquitectónica única y sutil, la mayor tasa de aciertos del modelo puntero puede seguir justificando su coste adicional. Si estás evaluando opciones en el panorama general, nuestro resumen de los mejores asistentes de IA para programación pone esto en contexto.
Puntos fuertes
- Pesos abiertos bajo una permisiva licencia MIT modificada
- Coste por token muy bajo, con aciertos en caché económicos
- Entrada nativa de imágenes y vídeos, poco común en un modelo de programación
- Un contexto de 256K es adecuado para trabajos de agentes que abarcan repositorios completos
- Una reducción de ~30 % en tokens de razonamiento reduce las facturas de los agentes
Limitaciones
- Queda por detrás de GPT-5.5 en múltiples benchmarks de programación
- El modo de razonamiento obligatorio añade latencia y excluye llamadas rápidas sin razonamiento
- El alojamiento local requiere GPUs de clase centro de datos
- Las mejoras destacadas son reportadas por el fabricante en sus propias suites
- No se recomienda para conversaciones generales —está diseñado específicamente para un propósito concreto
Cómo usarlo: API frente a ejecución local de los pesos
La ruta más sencilla es usar la API. K2.7 Code está disponible a través de la API Kimi de Moonshot y su CLI Kimi Code, y soporta las convenciones estándar de invocación de herramientas, por lo que se integra fácilmente en la mayoría de las configuraciones existentes de agentes. Si construyes sobre infraestructuras de agentes, consulta nuestra guía sobre los mejores frameworks de agentes de IA para saber dónde encaja un modelo como este.
Ejecutar los pesos abiertos es otra historia, y aquí es donde debemos ser realistas. Al igual que Kimi K2 Thinking antes que él, K2.7 Code se distribuye pre-cuantizado en int4 nativo: los pesos MoE se almacenan en 4 bits mediante entrenamiento consciente de la cuantización, mientras que la atención permanece en BF16. Por eso la versión publicada en Hugging Face ocupa aproximadamente 595 GB en disco, en lugar de los ~2 TB que requeriría una copia completa en BF16 de un modelo de 1 billón de parámetros. (Moonshot no distribuye una versión en precisión completa BF16.) El servicio se admite mediante vLLM, SGLang y KTransformers.
| Configuración | Realidad |
|---|---|
| ~8 GPUs de clase 80 GB (≈640 GB de VRAM), int4 nativo | Configuración recomendada para producción con contexto completo (≈5 H200 equivalen aproximadamente) |
| 4 GPUs RTX 4090 (96 GB), con descarga a CPU/RAM | Posible, pero con contexto limitado a ~64K–128K y un rendimiento mucho menor |
| GPU consumidora individual | No viable para el modelo completo |
En resumen, «pesos abiertos» no significa «se ejecuta en tu portátil». Incluso en 4 bits nativos, los pesos solos superan los medio terabyte, por lo que, para la mayoría de los equipos, la API es la opción sensata, y el autoalojamiento está reservado a organizaciones con presupuestos serios en GPUs o necesidades estrictas de residencia de datos. Si el alojamiento local es un requisito imprescindible, evalúa opciones más pequeñas en nuestra mejor LLM local guía para programación que cubre modelos compatibles con hardware real.
Comparativa con K2.6 y competidores
Frente a K2.6, K2.7 Code es una mejor herramienta para agentes de programación sostenidos y de múltiples pasos, pero peor para cualquier otro propósito; la propia orientación de Moonshot es utilizar K2.6 para tareas generales. Esta división es intencionada: un modelo optimizado para programación mediante agentes y otro para amplitud funcional.
Frente al amplio campo abierto, el rival obvio para 2026 es GLM-5.2 de Zhipu, otro gran modelo abierto que también persigue ese mismo nicho de agentes especializados en programación; analizamos dicho modelo en nuestro artículo explicativo sobre GLM-5.2, y lo enfrentamos directamente a Kimi K2.7 en GLM-5.2 frente a Kimi K2.7 para programación. Aún es difícil pronosticar un ganador justo: Zhipu lanzó GLM-5.2 sin publicar cifras de rendimiento en benchmarks, y terceros neutrales aún no han publicado puntuaciones comparables y directamente equivalentes en tareas de programación agente para ambos modelos, por lo que cualquier afirmación sobre un «ganador» hoy en día sería prematura. Frente a los modelos cerrados de vanguardia, K2.7 Code representa una opción orientada al valor, no un líder en capacidades: aceptas una brecha medible respecto a GPT-5.5 a cambio de pesos abiertos y un precio que puede ser hasta diez veces menor.
Preguntas frecuentes
¿Es Kimi K2.7 Code un chatbot o un modelo especializado en programación?
Es un modelo especializado en programación, diseñado para tareas de software agente: planificación, edición de archivos, ejecución de herramientas y depuración en múltiples pasos. No está posicionado como un chatbot generalista. Moonshot recomienda la versión anterior, K2.6, para conversaciones generales, reservando K2.7 Code exclusivamente para trabajos de programación.
¿Cuál es el costo de Kimi K2.7 Code?
La API tiene un precio de 0,95 USD por millón de tokens de entrada y 4,00 USD por millón de tokens de salida, con aciertos en caché alrededor de 0,19 USD por millón de tokens de entrada. Esto equivale aproximadamente a un 6× menos costoso que Claude Opus 4.8 en tokens de salida y más de un 12× menos costoso que Claude Fable 5.
¿Puedo ejecutar Kimi K2.7 Code localmente?
Sí, los pesos del modelo son públicos bajo una licencia MIT modificada, pero se trata de un modelo de 1 billón de parámetros que ocupa unos 595 GB en disco incluso en su formato nativo int4. Una configuración realista para producción requiere aproximadamente 8 GPU de clase 80 GB (~640 GB de VRAM); cinco H200 constituyen una equivalencia aproximada. Un sistema con 4 GPU RTX 4090 puede ejecutarlo únicamente mediante descarga a CPU/RAM, reduciendo el contexto y el rendimiento, y ninguna GPU consumidora individual puede alojar el modelo completo.
¿En qué medida es mejor K2.7 Code que K2.6?
Moonshot informa mejoras del +21,8 % en Kimi Code Bench v2, +11,0 % en Program Bench, +31,5 % en MLS Bench Lite y +11,4 % en MCPMark Verified, además de un ~30 % menos de tokens de razonamiento por tarea. Estas cifras provienen del fabricante y se basan en benchmarks propios de Moonshot, por lo que deben considerarse orientativas.
¿Admite Kimi K2.7 Code imágenes?
Sí. Incluye un codificador visual MoonViT de 400 millones de parámetros y acepta entradas de texto, imagen y video. Esto le permite trabajar a partir de capturas de pantalla, diagramas o grabaciones cortas —una característica inusual en un modelo abierto centrado en programación.
¿Es Kimi K2.7 Code mejor que GPT-5.5 para programación?
No en la mayoría de los benchmarks. GPT-5.5 lidera en Program Bench (69,1 frente a 53,6) y en MCPMark Verified (92,9 frente a 81,1). La ventaja de K2.7 Code radica en su costo: la diferencia de precio permite ejecutarlo con mucha mayor frecuencia dentro del mismo presupuesto, lo cual puede resultar decisivo en cargas de trabajo agente de alto volumen.
¿Qué es el «modo de razonamiento» y puedo desactivarlo?
El modo de razonamiento es el paso interno de razonamiento del modelo antes de emitir una respuesta. En K2.7 Code es obligatorio: no existe un modo sin razonamiento, y la API devuelve un error si intentas desactivarlo. La mejora anunciada es que ahora alcanza las respuestas utilizando aproximadamente un 30 % menos de tokens de razonamiento que K2.6.
Conclusión
Kimi K2.7 Code es un lanzamiento nítido y deliberadamente especializado: un agente de programación abierto de 1 billón de parámetros que sacrifica una brecha real de capacidades frente a GPT-5.5 a cambio de un precio difícil de rebatir y una licencia que te permite poseer el modelo íntegramente. No encabezará los rankings, y su modo de razonamiento obligatorio, junto con el requisito de hardware de centro de datos —más de medio terabyte de pesos incluso en formato nativo de 4 bits—, significa que no es adecuado para todos. Sin embargo, para equipos que ejecutan cargas de trabajo agente de programación de alto volumen, donde el costo por tarea se acumula rápidamente, representa una de las opciones más creíbles desde el punto de vista del valor en 2026. Usa la API a menos que dispongas de las GPU necesarias y tengas una razón sólida para hospedarlo tú mismo; evalúalo previamente en tus propios repositorios antes de comprometerte, y mantén K2.6 disponible para las conversaciones para las que nunca fue diseñado.
