Dos de los laboratorios de IA más ambiciosos de China lanzaron nuevos modelos de código de código abierto con pesos públicos en un lapso de solo un día este mes. Moonshot presentó Kimi K2.7 Code el 12 de junio; Zhipu (Z.ai) respondió con GLM 5.2 el 13 de junio. Ambos son gigantescos modelos Mixture-of-Experts, ambos cuentan con licencias permisivas y ambos están diseñados explícitamente para una misma tarea: programación agente y a largo plazo que no implique costos asociados a Claude ni a GPT.
El matiz radica en cómo cada laboratorio realizó las pruebas de referencia. Moonshot publicó una batería de resultados propios para K2.7 Code desde el primer día. Zhipu, por su parte, desplegó inicialmente GLM 5.2 en sus niveles Coding Plan sin incluir ninguna tabla comparativa, y solo días después publicó un conjunto completo de pruebas junto con su API y los pesos abiertos bajo licencia MIT. Por tanto, en el momento de redactar este artículo, ambos modelos ya cuentan con puntuaciones oficiales de programación publicadas por sus respectivos fabricantes, pero ninguno dispone aún de una amplia base de resultados independientes en SWE-bench, y las cifras destacadas de Moonshot se basan en suites internas propietarias cuya metodología ya ha comenzado a ser cuestionada por los profesionales del sector. A continuación analizamos cómo se comparan realmente ambos modelos, qué podemos verificar y qué sigue siendo incierto.
Conclusiones clave
- Diferentes arquitecturas, mismo objetivo. Kimi K2.7 Code es un modelo MoE de 1 billón de parámetros con 32 000 millones activos y una ventana de contexto de 256 000; GLM 5.2 tiene aproximadamente entre 744 000 y 753 000 millones de parámetros totales, con unos 40 000 millones activos y una ventana de contexto completa de 1 millón.
- Ambos cuentan ahora con pruebas de referencia oficiales. Moonshot informa de un aumento del +21,8 % en su propia prueba Kimi Code Bench v2 (62,0 frente a 50,9), además de un ~30 % menos de tokens de razonamiento. Posteriormente, Zhipu también publicó los resultados de GLM 5.2: SWE-bench Pro 62,1, Terminal-Bench 2.1 81,0 y FrontierSWE 74,4, superando a GPT-5.5 en varias suites de evaluación de largo alcance. Se recomienda tratar con cautela los resultados publicados por ambos fabricantes hasta que se disponga de ejecuciones independientes verificables.
- En cuanto al precio, Kimi resulta más económico por token, mientras que GLM ofrece mejor relación valor por mes. Kimi se factura a 0,95 USD por entrada y 4,00 USD por salida por millón de tokens; GLM se factura aproximadamente a 1,40 USD por entrada y 4,40 USD por salida, o bien mediante un plan fijo Coding Plan de GLM a partir de 10 USD/mes (versión Lite).
- Ambos son genuinamente abiertos y compatibles con usos comerciales. GLM 5.2 está bajo licencia MIT; Kimi utiliza una licencia MIT modificada (se permite su uso comercial, con una cláusula de atribución únicamente si se superan los 100 millones de usuarios activos mensuales o los 20 millones de USD/mes en ingresos).
- GLM se integra sin problemas en Claude Code. Z.ai ofrece un punto final compatible con Anthropic, por lo que los agentes existentes de Claude Code o los SDK de Anthropic funcionan simplemente cambiando la URL base y la clave de acceso.
- Ejecutar los pesos no es viable en portátiles. Los más de 744 000 millones y 1 billón de parámetros implican servidores con múltiples GPU o una cuantización intensa; la mayoría de los usuarios recurrirá primero a las APIs en la nube.
- Versión de 30 segundos
- Arquitectura y parámetros activos
- Ventana de contexto: 1 millón frente a 256 000
- Pruebas de referencia de programación (y la brecha de transparencia)
- Precios y relación calidad-precio
- Licencia y apertura
- Capacidad agente y uso de herramientas
- Cómo ejecutarlos realmente
- Cómo se posicionan frente a DeepSeek V4 y Qwen 3.x
- Preguntas frecuentes
- Conclusión
- Artículos relacionados
Versión de 30 segundos
Si busca el contexto más largo, las puntuaciones de codificación abiertas publicadas más altas, una licencia MIT, una tarifa mensual fija y compatibilidad nativa con Claude Code, GLM 5.2 es el paquete más completo hoy en día. Si prefiere la tarifa por token más económica, el mejor descuento por caché para bucles de agentes intensivos en tokens y ganancias medibles en eficiencia por token, Kimi K2.7 Code es la opción más ligera. Por ahora, los benchmarks de ambos proveedores son de primera parte, y una comparación directa en una sola tarea otorgó a GLM una ligera ventaja; por tanto, cualquiera que proclame un ganador definitivo esta semana se basa en la comunicación comercial del proveedor, no en datos independientes.
Arquitectura y parámetros activos
Estos modelos se construyen sobre la misma idea general: una enorme arquitectura esparsa MoE (mixture of experts), donde solo una fracción de los parámetros se activa por token, pero la ajustan de forma distinta.
Kimi K2.7 Code es, sobre el papel, el modelo más grande: 1 billón de parámetros totales, con 32 000 millones activos, seleccionados entre 384 expertos (8 ruteados más 1 compartido por token). Esta activación dispersa es precisamente lo que permite servir un modelo de billón de parámetros a un precio razonable. GLM 5.2 es más pequeño en total (los documentos de Z.ai indican ~753 000 millones, mientras que herramientas como vLLM registran ~744 000 millones), pero activa ligeramente más parámetros por token (~40 000 millones) y apuesta por un contexto más largo y un sistema dual de esfuerzo cognitivo: un modo «Alto» para tareas rutinarias y un modo «Máximo» para problemas complejos de arquitectura y depuración.
La lectura práctica es la siguiente: el mayor número de expertos de Kimi podría beneficiar la amplitud de conocimiento, mientras que la mayor cantidad de parámetros activos y los modos de esfuerzo de GLM están orientados a la profundidad en un único problema difícil. Los benchmarks publicados actualmente favorecen a GLM en ingeniería de largo alcance, pero al ser ejecutados por los propios proveedores, debe considerarse su narrativa arquitectónica como evidencia complementaria, no como veredicto definitivo.
Ventana de contexto: 1 millón frente a 256 000
Esta es la diferencia más clara y verificable. GLM 5.2 ofrece un auténtico contexto de 1 000 000 de tokens (la glm-5.2[1m] variante), con una salida limitada a aproximadamente 128 000–131 000 tokens. Kimi K2.7 Code opera con un contexto de 256 000 tokens (262 144 tokens) y un límite de salida predeterminado mucho menor: 32 768 tokens.
Para trabajos agénticos a escala de repositorio —cargar una base de código extensa, trazas largas de planificación seguidas de ejecución, refactorizaciones multiarchivo en una sola operación— la ventana de 1 millón de tokens de GLM constituye una ventaja real y coincide con lo que ofrecen ahora los modelos abiertos punteros como DeepSeek V4 y Qwen 3.6 Plus. Dicho esto, 256 000 tokens sigue siendo una cifra considerable, y en bucles agénticos la mayoría de las herramientas bien diseñadas recuperan y fragmentan el contexto en lugar de cargar todo el repositorio de golpe. Un contexto más amplio ayuda, pero no implica automáticamente un código mejor.
Pruebas de referencia de programación (y la brecha de transparencia)
Aquí es donde debe mantener su escepticismo activado, porque todos los números destacados a continuación provienen directamente de los proveedores.
Moonshot informa que K2.7 Code obtiene 62,0 puntos en su benchmark interno Kimi Code Bench v2, un aumento del 21,8 % respecto a los 50,9 puntos de K2.6, además de mejoras en Program Bench y suites agénticas centradas en MCP, y una reducción del ~30 % en el uso de tokens de razonamiento. Estas son afirmaciones específicas, pero se basan en benchmarks propietarios de Moonshot, y al menos un medio (VentureBeat) ha reportado que profesionales afirman que dichos resultados no se corresponden plenamente con el rendimiento real. En el momento de redactar este artículo, no estaban disponibles cifras independientes de SWE-bench Verified ni de SWE-bench Pro para K2.7 Code.
GLM 5.2 salió al mercado de forma opuesta: se lanzó inicialmente en los niveles Coding Plan de Zhipu sin tabla de benchmarks, y posteriormente Z.ai publicó un conjunto completo junto con su API y sus pesos abiertos. Esas puntuaciones son sólidas: SWE-bench Pro 62,1 (frente a 58,6 de GPT-5.5 y 58,4 de GLM 5.1), Terminal-Bench 2.1 (Terminus-2) 81,0 (frente a 84,0 de GPT-5.5), FrontierSWE 74,4 % (frente a 72,6 % de GPT-5.5), además de victorias en horizontes largos en PostTrainBench (34,3 frente a 28,4) y SWE-Marathon (13,0 frente a 12,0). Varios de estos benchmarks fueron ejecutados por evaluadores externos (Proximal, el equipo de PostTrainBench, Abundant AI), pero fueron difundidos y curados por Z.ai, por lo que deben considerarse publicados por el proveedor, no totalmente independientes. La conclusión es que GLM 5.2 registra las mejores puntuaciones de codificación entre modelos abiertos en papel, aunque aún queda por detrás de Claude Opus 4.8 en la mayoría de ellas.
Existe un dato más cercano a la neutralidad. Una comparación directa estilo independiente realizada por Kilo otorgó a GLM 5.2 una ventaja en planificación: 9,0 frente a 8,1 de Kimi en una tarea de servicio de banderas de características para backend, con GLM superando las 15/15 comprobaciones de verificación frente a las 14/15 de Kimi, y ambos produciendo compilaciones funcionales casi idénticas. Este es un indicador útil, pero corresponde a una única tarea evaluada por un solo ente, no a una suite completa de benchmarks.
| Especificaciones | GLM 5.2 (Zhipu / Z.ai) | Kimi K2.7 Code (Moonshot) |
|---|---|---|
| Lanzado | 13 de junio de 2026 | 12 de junio de 2026 |
| Parámetros totales / activos | ~744–753 000 millones MoE / ~40 000 millones | 1 billón MoE / 32 000 millones (384 expertos) |
| Ventana de contexto | 1 000 000 tokens | 256 000 (262 144) tokens |
| Salida máxima | ~128 000–131 000 tokens | ~32 000 (32 768) tokens |
| Benchmarks oficiales de codificación | SWE-bench Pro 62,1; Terminal-Bench 2.1 81,0; FrontierSWE 74,4 % (publicados por el proveedor, algunos ejecutados por terceros) | +21,8 % en Kimi Code Bench v2 (62,0 frente a 50,9, reportado por el proveedor) |
| SWE-bench independiente | No disponible aún (suites públicas) | No disponible aún |
| Precio de la API (por 1 millón) | ~1,40 USD entrada / ~4,40 USD salida; plan fijo desde 10 USD/mes | 0,95 USD entrada / 4,00 USD salida; 0,19 USD por entrada en caché |
| Licencia | MIT | Licencia MIT modificada (uso comercial permitido; atribución requerida si supera los 100 millones de usuarios activos mensuales o los 20 millones USD/mes) |
| Compatibilidad con endpoints | Compatible con OpenAI y Anthropic | Compatible con OpenAI (Moonshot / OpenRouter) |
Precios y relación calidad-precio
Los modelos de precios están estructurados de forma distinta, así que la respuesta a «¿cuál es más barato?» depende del uso.
Kimi K2.7 Code utiliza una API con facturación por uso sencilla: 0,95 USD por cada millón de tokens de entrada, 4,00 USD por cada millón de tokens de salida y una notable tarifa de 0,19 USD por cada millón de tokens de entrada almacenados en caché. Esta tarifa de caché es clave para la codificación agéntica, donde se reenvía gran parte del mismo contexto estable en cada paso. Con estas tarifas, Kimi resulta dramáticamente más económico que los modelos punteros occidentales: solo por precio de salida, más de diez veces más barato que las opciones de gama alta.
GLM 5.2 tiene una facturación por uso de aproximadamente 1,40 USD por entrada / 4,40 USD por salida por cada millón (disponible en tiempo real con proveedores como FriendliAI, Novita y Z.ai), pero Zhipu también promueve el GLM Coding Plan, una suscripción fija con niveles Lite, Pro, Max y Team. Lite comienza en 10 USD/mes (aproximadamente 400 solicitudes/semana), Pro en 30 USD/mes y Max en 80 USD/mes: excelente relación calidad-precio si programa diariamente con él y desea una facturación predecible.
Si es un desarrollador independiente que trabaja constantemente dentro de un agente, el plan fijo de GLM puede ser la opción más económica en la práctica. Si ejecuta cargas de trabajo variables o esporádicas, o está construyendo un producto encima de estos modelos, la tarifa por uso de Kimi, combinada con su bajo costo de caché, resulta más fácil de modelar. Para una visión más amplia de costos entre opciones autoalojables, nuestra comparativa de los mejor LLM locales para programación en 2026 sitúa a ambos modelos en contexto.
Licencia y apertura
Ambos son genuinamente modelos con pesos abiertos, lo que los distingue de los laboratorios punteros cerrados, pero los detalles legales difieren.
GLM 5.2 emplea una licencia MIT estándar: úselo, modifíquelo, distribúyalo comercialmente, sin restricciones. Kimi K2.7 Code usa una licencia MIT modificada que también permite el uso comercial, pero añade una condición: si su producto supera los 100 millones de usuarios activos mensuales o los 20 millones USD de ingresos mensuales, debe mostrar de forma destacada «Kimi K2.7 Code» en la interfaz de usuario. Para prácticamente todos los equipos esto no representa un problema; para un hipercalculador sí constituye una cláusula real. Así pues, en términos de permisividad pura, la licencia MIT de GLM 5.2 le da una ligera ventaja.
Fortalezas de GLM 5.2
- Contexto completo de 1 millón de tokens para trabajos a escala de repositorio
- Las mejores puntuaciones publicadas de codificación entre modelos abiertos de los dos
- Licencia MIT sin restricciones
- Compatibilidad nativa con endpoints de Anthropic y OpenAI
- Plan de codificación con tarifa fija desde 10 USD/mes
- Control dual del esfuerzo cognitivo: modo «Alto» y modo «Máximo»
Reservas sobre GLM 5.2
- Los benchmarks son publicados por el proveedor (algunos ejecutados por terceros); aún no existe una suite SWE-bench independiente amplia
- Tarifa por token ligeramente superior a la de Kimi
- Número total de parámetros menor
Capacidad agente y uso de herramientas
Ambos modelos están diseñados explícitamente para agentes de codificación de largo alcance, no solo para la finalización de fragmentos, y ambos ofrecen una sólida capacidad de invocación de herramientas.
El punto destacado de GLM 5.2 para creadores de agentes es su compatibilidad: dado que Z.ai ofrece un endpoint compatible con Anthropic (además de uno compatible con OpenAI), puede redirigir fácilmente Claude Code o un agente basado en el SDK de Anthropic simplemente cambiando la URL base y la clave, sin necesidad de reescribir nada. Además, se integra de forma nativa con Cline, Cursor y más de veinte herramientas de desarrollo, y sus puntuaciones publicadas en horizontes largos (FrontierSWE, PostTrainBench, SWE-Marathon) están dirigidas precisamente a cargas de trabajo agénticas de varias horas. Kimi K2.7 Code se centra en la eficiencia agéntica medida: la reducción reportada por Moonshot del ~30 % en tokens de razonamiento va directamente dirigida al costo y la latencia de bucles agénticos de múltiples pasos, y el modelo muestra mejoras en suites orientadas a MCP. Si está eligiendo un marco de agentes basado en cualquiera de ellos, nuestra guía sobre los mejor marcos de agentes de IA en 2026 cubre la capa de orquestación.
Cómo ejecutarlos realmente
Existen dos caminos, y para la mayoría de las personas la respuesta es la nube.
API en la nube es la ruta sencilla. Kimi K2.7 Code está disponible mediante la API de Moonshot y agregadores como OpenRouter; GLM 5.2 está disponible ya en el GLM Coding Plan y a través de endpoints compatibles con OpenAI/Anthropic (URL base api.z.ai). Aquí es donde debería comenzar casi todo el mundo.
Pesos abiertos ya están publicados: Kimi K2.7 Code está disponible en Hugging Face con soporte para vLLM, SGLang y KTransformers, y los pesos de GLM 5.2 bajo licencia MIT son descargables; sin embargo, los requisitos de hardware son exigentes. Un modelo de 1 billón de parámetros (incluso con solo 32 000 millones activos) o uno de ~750 000 millones requiere servidores con múltiples GPU o una cuantización GGUF agresiva para ejecutarse localmente; no son modelos aptos para una sola tarjeta gráfica de consumo. Si su objetivo es autoalojar codificadores más pequeños en hardware convencional, le convendrá más optar por los mejores LLM locales para ejecutar en Ollama en 2026 que cualquiera de estos pesos pesados.
Cómo se posicionan frente a DeepSeek V4 y Qwen 3.x
Ninguno de los dos modelos existe en el vacío. DeepSeek V4-Pro (lanzado en abril de 2026) cuenta con 1,6 billones de parámetros, un contexto de 1 millón de tokens y una licencia MIT, y obtiene un 80,6 % verificado en SWE-bench Verified —actualmente la mejor puntuación pública disponible para modelos de código de código abierto. Qwen 3.6 Plus también ofrece un contexto de 1 millón de tokens y un 78,8 % competitivo en el estado del arte en SWE-bench Verified. En otras palabras, GLM 5.2 y Kimi K2.7 Code entran en un campo ya saturado y en rápido movimiento, donde rivales ya han publicado comparaciones parcialmente independientes en las suites de benchmarks públicos estándar. Los resultados publicados por el fabricante de GLM 5.2 son competitivos, pero las comparaciones de referencia definitivas en SWE-bench Verified siguen perteneciendo, por ahora, a DeepSeek y Qwen. Para un análisis más detallado de esta pareja, consulte nuestro comparativo entre DeepSeek V4 y Qwen3.
Preguntas frecuentes
¿Cuál es mejor para programación: GLM 5.2 o Kimi K2.7 Code?
Todavía no hay una respuesta completamente independiente, pero según los resultados publicados, GLM 5.2 parece más fuerte para tareas de programación a largo plazo: las pruebas de Zhipu lo sitúan en SWE-bench Pro con un 62,1 % y en FrontierSWE con un 74,4 %, superando a GPT-5.5 en varias suites, además de ofrecer un contexto de 1 millón de tokens y compatibilidad con Claude Code. Kimi K2.7 Code resulta más económico por token y reporta un +21,8 % en su propio benchmark de programación. Una comparativa directa en una sola tarea (Kilo) otorgó ligeramente la ventaja de planificación a GLM (9,0 frente a 8,1; 15/15 frente a 14/15 comprobaciones). Todos los resultados destacados fueron publicados por los fabricantes, así que espere a las ejecuciones independientes de SWE-bench antes de considerar cualquiera de ellos como definitivos.
¿Tiene GLM 5.2 benchmarks publicados?
Sí, pero no al lanzamiento. Zhipu desplegó inicialmente GLM 5.2 en sus niveles Coding Plan el 13 de junio de 2026 sin tabla de benchmarks, y publicó un conjunto completo junto con su API y los pesos abiertos bajo licencia MIT días después: SWE-bench Pro 62,1, Terminal-Bench 2.1 81,0, FrontierSWE 74,4, PostTrainBench 34,3 y SWE-Marathon 13,0, superando a GPT-5.5 en varias suites a largo plazo, aunque quedando por detrás de Claude Opus 4.8 en la mayoría. Varios de estos benchmarks fueron ejecutados por evaluadores externos, pero curados por Z.ai, por lo que se consideran publicados por el fabricante, no totalmente independientes.
¿Puedo usar GLM 5.2 con Claude Code?
Sí. Z.ai expone un endpoint compatible con Anthropic (bajo api.z.ai, por ejemplo, https://api.z.ai/api/anthropic o el endpoint específico para programación), por lo que puede configurar Claude Code o un agente basado en el SDK de Anthropic para utilizar GLM 5.2 simplemente estableciendo ANTHROPIC_BASE_URL y su clave API de Z.ai, y seleccionando el modelo glm-5.2 (o glm-5.2[1m]) —sin necesidad de reescribir código alguno. Espere aumentar el tiempo de espera para las solicitudes, ya que la latencia del primer token con un contexto de 1 millón de tokens es mayor que el valor predeterminado de Claude.
¿Cuál es el costo de cada modelo?
Kimi K2.7 Code se factura a razón de 0,95 USD por millón de tokens de entrada, 4,00 USD por millón de tokens de salida y 0,19 USD por millón de tokens almacenados en caché. GLM 5.2 se factura aproximadamente a 1,40 USD por millón de tokens de entrada y 4,40 USD por millón de tokens de salida, o bien se vende mediante el plan GLM Coding Plan, desde 10 USD/mes (versión Lite), 30 USD para la versión Pro y 80 USD para la versión Max.
¿Es gratuito Kimi K2.7 Code para uso comercial?
Efectivamente sí. Emplea una licencia MIT modificada que permite su uso comercial; la única condición adicional es que los productos que superen los 100 millones de usuarios activos mensuales o ingresos mensuales superiores a 20 millones de USD deben mostrar «Kimi K2.7 Code» en su interfaz de usuario. La licencia MIT estándar de GLM 5.2 no incluye dicha cláusula.
¿Puedo ejecutar estos modelos localmente?
Los pesos están disponibles: Kimi K2.7 Code en Hugging Face (compatible con vLLM/SGLang/KTransformers) y GLM 5.2 bajo licencia MIT; sin embargo, ambos son modelos MoE muy grandes. Espere necesitar servidores con múltiples GPU o aplicar cuantización intensa; ninguno funciona cómodamente en una sola GPU de consumo.
¿Cuál tiene la ventana de contexto más grande?
GLM 5.2, con amplia ventaja: 1 000 000 de tokens frente a los 256 000 de Kimi K2.7 Code. Esto convierte a GLM en la opción más adecuada para contextos que abarcan repositorios completos y trazas de agentes extremadamente largas, aunque unas buenas herramientas para agentes reducen la frecuencia con la que realmente se necesita aprovechar toda esa capacidad.
Conclusión
Se trata de dos excelentes modelos de código abiertos que llegaron con apenas un día de diferencia, y el veredicto sincero es que la competencia es muy ajustada —con GLM 5.2 manteniendo actualmente la ventaja teórica. Ambos fabricantes han publicado benchmarks de programación, y los de Zhipu son los más sólidos de los dos (62,1 % en SWE-bench Pro y 74,4 % en FrontierSWE, superando a GPT-5.5 en varias suites a largo plazo), además de ofrecer un contexto de 1 millón de tokens, una licencia MIT sin restricciones, facturación predecible a tarifa plana y una integración sencilla con Claude Code. Kimi K2.7 Code responde con el precio más bajo por token, un buen descuento por caché, bucles de agente eficientes en tokens y sus propias mejoras reportadas.
Si está lanzando un producto o ejecutando cargas de trabajo variables intensas, comience con la API con facturación por uso de Kimi y su descuento por caché. Si pasa todo el día dentro de un agente de programación y valora una ventana de contexto de 1 millón de tokens, las mejores puntuaciones publicadas y una compatibilidad nativa con Anthropic, el plan de programación de GLM 5.2 es difícil de superar. Y, independientemente de su elección, recuerde que todos los resultados destacados aquí fueron publicados por los fabricantes: espere los resultados independientes de SWE-bench Verified antes de dar por definitiva cualquier afirmación de marketing. En un campo donde DeepSeek V4-Pro ya obtiene un 80,6 % verificado en SWE-bench Verified, la barra para ser el «mejor codificador abierto» la marcan evaluadores neutrales, no los laboratorios que construyeron los modelos.
