Monday, 22 June 2026 | Updating Daily AI insight, written for builders

Explicación de GLM 5.2: el modelo abierto de programación de Zhipu con ventana de contexto de 1 millón de tokens

El 13 de junio de 2026, Zhipu AI (que ahora comercializa sus productos bajo la marca Z.ai) lanzó GLM 5.2 en todos los niveles de su Plan GLM Coding. El dato más destacado es una ventana de contexto de 1 000 000 de tokens, cinco veces mayor que la ofrecida por GLM 5.1, junto con pesos abiertos bajo licencia MIT que Zhipu prometió publicar dentro de la semana, acompañados de una API independiente y un chatbot. Para un modelo diseñado específicamente para tareas de programación autónoma a largo plazo, el salto en tamaño de esta ventana de contexto constituye, en sí mismo, toda la historia.

Lo que faltaba en el anuncio de lanzamiento fue igualmente notable: no se presentó ni una sola puntuación de referencia. Ningún resultado en SWE-bench, Terminal-Bench ni Code Arena. Esto resulta inusual para un lanzamiento de vanguardia, y durante los primeros días todo lo escrito sobre el «rendimiento» de GLM 5.2 fue o bien marketing corporativo o bien una evaluación informal realizada por alguien durante el fin de semana. Esa situación cambió cuando los pesos abiertos se hicieron públicos el 16 de junio: Zhipu publicó una batería completa de pruebas de referencia, y evaluadores independientes siguieron rápidamente. Este artículo explica qué es realmente GLM 5.2, las especificaciones confirmadas por Zhipu, los resultados disponibles actualmente (y hasta qué punto merecen confianza), cómo acceder al modelo o alojarlo localmente, cómo se compara con GLM 5.1 y otros modelos abiertos de programación, y para quién resulta relevante.

Conclusiones clave

  • Lanzado el 13 de junio de 2026 en el Plan GLM Coding; la API, el chatbot y los pesos abiertos bajo licencia MIT se publicaron el 16 de junio.
  • modelo disperso de mezcla de expertos (MoE) de ~753 mil millones de parámetros (según la propia ficha técnica de Zhipu), con aproximadamente 40 000 millones de parámetros activos por token, expuesto en Claude Code como el identificador del modelo glm-5.2[1m] (identificador base glm-5.2).
  • ventana de contexto de 1 000 000 de tokens (frente a los ~200 000 tokens de GLM 5.1), con una salida limitada a 131 072 tokens y dos modos de razonamiento: Alto y Máximo.
  • Punto final compatible con Anthropic lo que significa que Claude Code, Cline, OpenCode, OpenClaw y otras herramientas pueden conectarse a él simplemente modificando una URL base.
  • Ahora existen pruebas de referencia. Estaban ausentes en el lanzamiento inicial del 13 de junio, pero se publicaron junto con los pesos: resultados reportados por el fabricante (SWE-bench Pro 62,1 y Terminal-Bench 2.1 con 81,0 puntos), además de una puntuación independiente del Índice de Inteligencia Artificial de Artificial Analysis de 51 puntos, lo que lo convierte en el mejor modelo de pesos abiertos. Trate los resultados del fabricante como tales; los resultados independientes corroboran la imagen general.
  • Alojarlo localmente requiere una infraestructura de centro de datos: aproximadamente 8 GPUs H200 en precisión FP8, o menos GPUs con una cuantización INT4 agresiva, antes incluso de considerar la caché KV necesaria para la ventana de contexto de 1 millón de tokens.

Qué es realmente GLM 5.2

GLM 5.2 es la tercera versión de la línea GLM-5 de Zhipu, tras GLM 5 y GLM 5.1, y está diseñado para una única tarea: escribir y mantener software en sesiones largas y de múltiples pasos. Se trata de un modelo disperso de mezcla de expertos (MoE) con aproximadamente 753 000 millones de parámetros totales, pero solo unos 40 000 millones activos por token. (La ficha técnica del modelo de Zhipu en Hugging Face indica 753 000 millones; algunos seguidores externos redondean la cifra a ~744 000 millones, igual que GLM 5.1.) Esta dispersión es lo que permite que un modelo tan grande se ejecute a una velocidad y costo razonables, ya que el cómputo se factura según los ~40 000 millones de parámetros activos, no según los 753 000 millones totales, en cada paso hacia adelante.

Dos aspectos definen la generación GLM 5.2 frente a su predecesor. Primero, el contexto: el modelo acepta hasta 1 000 000 de tokens de entrada. La API independiente expone un identificador de modelo predeterminado de glm-5.2 (con una ventana de contexto más corta), mientras que la ventana completa de 1 millón de tokens se identifica como glm-5.2[1m] —la variante que debe configurarse en Claude Code. Un millón de tokens es suficiente para almacenar un repositorio de tamaño medio, sus pruebas y una larga transcripción de trabajo en una única ventana. Segundo, la salida: puede generar hasta 131 072 tokens en una sola respuesta, lo cual es fundamental cuando un agente genera un módulo completo o una extensa diferencia de refactorización, en lugar de un simple fragmento de código.

Zhipu sustituyó los antiguos ajustes de esfuerzo por dos niveles de intensidad de pensamiento: Alto y Máximo, recomendando este último para trabajos complejos y de múltiples pasos. No existe ninguna opción Bajo ni Automático. Si desea conocer antecedentes sobre los modelos anteriores de Zhipu y cómo ha evolucionado la empresa, nuestra introducción a la familia de modelos GLM de Zhipu explica detalladamente su árbol genealógico.

Las especificaciones y las pruebas de referencia que llegaron tarde

Esta es la parte que merece leerse despacio, porque la situación evolucionó con rapidez. Zhipu lanzó GLM 5.2 al Coding Plan el 13 de junio con ninguna evaluación publicada de ningún tipo. Los medios que cubrieron ese lanzamiento suave, incluido MarkTechPost, señalaron lo mismo: el anuncio hablaba de disponibilidad, longitud de contexto y hoja de ruta de código abierto, pero no mencionaba en absoluto los resultados del modelo.

Eso cambió el 16 de junio, cuando los pesos abiertos se hicieron públicos en Hugging Face y Zhipu publicó una tabla de referencias junto con ellos. Así pues, el «vacío de referencias» era real, pero se debía a una particularidad temporal del lanzamiento, no a una situación permanente. De ello se derivan dos conclusiones.

Primero, los resultados reportados por el proveedor. En la propia ficha técnica de Zhipu, GLM 5.2 obtiene un 62,1 en SWE-bench Pro (frente a 58,4 en GLM 5.1 y 58,6 en GPT-5.5, aunque queda por detrás de Claude Opus 4.8, que alcanza 69,2) y un 81,0 en Terminal-Bench 2.1 (frente a ~63,5 en GLM 5.1, y ligeramente por detrás de Opus 4.8, con 85,0, y GPT-5.5, con 84,0). En la suite FrontierSWE para tareas de largo horizonte, Zhipu indica que GLM 5.2 se queda aproximadamente un punto por detrás de Opus 4.8. Estas cifras son resultados obtenidos por el propio proveedor y deben interpretarse como tales: es habitual que las primeras tablas publicadas por los fabricantes empleen configuraciones favorables.

Segundo, y más útil, evaluadores independientes ya han emitido sus veredictos y, en líneas generales, corroboran esta imagen. Artificial Analysis Otorga a GLM 5.2 una puntuación de 51 en su Índice de Inteligencia v4.1, convirtiéndolo así en el modelo de pesos abiertos líder, por delante de MiniMax-M3 (44), DeepSeek V4 Pro (44) y Kimi K2.6 (43). En Code Arena, plataforma comunitaria basada en votaciones, GLM 5.2 (Max) ocupa el puesto #2 en el ranking Frontend/WebDev, solo superado por Claude Fable 5 y muy por delante de otros modelos abiertos. Una advertencia genuina que revelan los datos independientes: GLM 5.2 consume muchos más tokens de salida por tarea que sus competidores (Artificial Analysis midió unos ~43 000 tokens por tarea en el Índice de Inteligencia, frente a ~26 000 en GLM 5.1), lo cual reduce su ventaja de coste en trabajos largos.

Por tanto, la descripción honesta actual no es «sin cifras, no confíe en nada». Más bien: GLM 5.2 es un modelo de pesos abiertos verificadamente sólido en los rankings independientes de inteligencia y codificación frontend, mientras que sus resultados oficiales en codificación agente (SWE-bench Pro, Terminal-Bench) deben validarse mediante un evaluador neutral como LiveBench o mediante sus propias pruebas antes de dar por definitivo cualquier titular del tipo «supera a GPT-5.5». Varios de esos titulares cuentan técnicamente con respaldo en benchmarks específicos —GLM 5.2 supera efectivamente a GPT-5.5 en SWE-bench Pro según la tabla de Zhipu—, pero pierde frente a Claude Opus 4.8 en la mayor parte de esa misma batería, por lo que la forma de presentar los resultados resulta clave.

AtributoGLM 5.2 (confirmado)
Lanzamiento del Coding Plan13 de junio de 2026
API y pesos abiertos16 de junio de 2026
Parámetros totales~753 000 millones (MoE; algunos rastreadores indican ~744 000 millones)
Activos por token~40 000 millones
Ventana de contexto1 000 000 de tokens (glm-5.2[1m])
Salida máxima131 072 tokens
Modos de razonamientoAlto, Max
LicenciaLicencia MIT (pesos abiertos)
Benchmark independienteÍndice de Inteligencia v4.1 de Artificial Analysis: 51 (modelo de pesos abiertos líder)

Cómo acceder a GLM 5.2 en la nube

La vía más rápida es el GLM Coding Plan, una suscripción que enruta agentes de programación a través de los puntos finales alojados de Zhipu. Las tarifas promocionales de lanzamiento rondan los 10 USD/mes para Lite (~400 peticiones/semana), ~30 USD/mes para Pro (~2 000 peticiones/semana) y ~80 USD/mes para Max (~8 000 peticiones/semana), con precios por puesto para equipos. Los precios de lista (no promocionales) son superiores —algunos revendedores cotizan cerca de 18 / 72 / 160 USD— y los cupos pueden variar, por lo que debe confirmar las cifras actuales en Z.ai antes de suscribirse.

Si prefiere pagar por token, la API independiente tiene un precio aproximado de 1,40 USD por millón de tokens de entrada y 4,40 USD por millón de tokens de salida en el punto final propio de Zhipu, con almacenamiento en caché de prompts que reduce el costo de la entrada en caché a unos 0,26 USD por millón y puede reducir sustancialmente el costo efectivo en contextos repetidos. Pasarelas de terceros como OpenRouter ofrecen tarifas comparables (Simon Willison lo probó allí con los mismos 1,40 / 4,40 USD), por lo que vale la pena comparar precios entre revendedores si el costo es el factor decisivo.

El atractivo que hace interesante a GLM 5.2 para flujos de trabajo existentes es su punto final compatible con Anthropic. Las herramientas que ya usan la API de Mensajes de Anthropic pueden redirigirse a Zhipu simplemente estableciendo una variable de entorno, sin necesidad de modificar el código:

ConfiguraciónValor
ANTHROPIC_BASE_URLhttps://api.z.ai/api/anthropic
Modelo (Claude Code, 1M)glm-5.2[1m]
Punto final de codificación (Cline, etc.)https://api.z.ai/api/coding/paas/v4
Tiempo de espera para llamadas largasElevar API_TIMEOUT_MS (p. ej., 3 000 000) para ejecuciones en modo Plan

Este único cambio es la razón por la que GLM 5.2 se lanzó con soporte nativo desde el primer día para Claude Code, Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw y Kilo Code. Si trabaja principalmente desde la terminal con agentes nativos, nuestra guía práctica sobre OpenCode y cómo gestiona los backends de modelos detalla con mayor profundidad esta integración.

La realidad hardware de ejecutar un modelo de ~753 mil millones de parámetros localmente

La licencia MIT es la característica principal, y es auténtica: ahora que los pesos están disponibles públicamente en Hugging Face, puede descargarlos, ajustarlos finamente y alojarlos usted mismo sin restricciones de uso ni geográficas. La salvedad es que «abierto» no significa «ejecutable en su portátil». Un modelo de ~753 000 millones de parámetros constituye una carga de trabajo para centros de datos.

En precisión FP8 (aproximadamente un byte por parámetro), los pesos solos requieren alrededor de 750 GB de VRAM, lo que en la práctica implica unos 8× H200 (141 GB cada uno) o 8× B200. Al reducir la precisión a INT4, la huella se reduce a unos 370 GB, suficiente para 4× H200 —o puede distribuirse entre más tarjetas con menos memoria, como 8× H100, a costa de cierta pérdida de calidad—. Y esas cifras no contemplan aún el contexto: una caché KV de 1 millón de tokens añade aproximadamente 80 GB o más, por lo que la configuración de contexto de 1 millón de tokens requiere realistamente nodos de la clase H200/B200. Las guías de despliegue publicadas estiman que un servidor único con 8× H200 cuesta alrededor de 10 000 USD/mes en precios spot, ascendiendo a 25 000 USD o más en nubes GPU bajo demanda.

Para la inmensa mayoría de los equipos, estos cálculos indican claramente usar la API. Alojar GLM 5.2 usted mismo solo tiene sentido cuando la residencia de los datos, el aislamiento total (air-gapping) o volúmenes muy altos y sostenidos justifican la carga operativa —y observe que la API alojada conveniente opera sobre infraestructura china, lo cual constituye una consideración específica para algunos compradores. Si su objetivo real es un modelo que pueda ejecutar en hardware que posee realmente, un MoE de ~753 000 millones de parámetros no es la herramienta adecuada, y nuestra guía sobre los mejores LLM locales para programación modelos aptos para estaciones de trabajo individuales o servidores GPU modestos

Puntos fuertes

  • ofrece alternativas adecuadas.
  • Un contexto de 1 millón de tokens es verdaderamente amplio y especialmente adecuado para tareas agente que abarcan repositorios completos.
  • Licencia MIT permisiva con pesos completamente abiertos, sin etiquetas restrictivas de «solo investigación» ni «no comercial».
  • Es el modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis y ocupa el #2 en el ranking frontend de Code Arena.

Caveats

  • Los resultados oficiales en codificación agente (SWE-bench Pro, Terminal-Bench) son de autoría del proveedor y quedan por detrás de Claude Opus 4.8; debe confirmarlos con evaluadores neutrales o mediante sus propias tareas.
  • Utiliza notablemente más tokens de salida por tarea que sus competidores, lo que reduce su ventaja de coste en trabajos largos.
  • El autohospedaje requiere hardware de centro de datos con múltiples GPU, no equipos para consumidores ni entusiastas; la API alojada se ejecuta en infraestructura china.
  • Solo ofrece niveles de esfuerzo Alto y Máximo; carece de un modo económico y rápido para tareas triviales. Los precios y los límites de uso aún están en fase de consolidación.

GLM 5.2 frente a GLM 5.1 y el resto de modelos de pesos abiertos

En comparación con su propio predecesor, GLM 5.2 tiene aproximadamente el mismo tamaño: Zhipu lo describe como perteneciente a la misma clase de parámetros que GLM 5.1 (~753 000 millones frente a ~754 000 millones), con el mismo diseño MoE y unos ~40 000 millones de parámetros activos. El avance radica casi por completo en la ampliación de la ventana de contexto y del límite de salida, además de un aumento medible en las puntuaciones de los benchmarks.

ModeloParámetros totalesContextoSalida máximaLicenciaSWE-bench Pro (proveedor)
GLM 5.2~753 000 millones MoE1,000,000131,072MIT62.1
GLM 5.1~754 000 millones MoE~200,000~131 000MIT58.4

En la carrera más amplia de modelos de código de pesos abiertos, GLM 5.2 entra ahora como líder indiscutido en varias tablas independientes, y ya no como una novedad sin probar. Las generaciones Kimi K2 de Moonshot, así como los últimos modelos codificadores de DeepSeek y Qwen, publican resultados en SWE-bench y en pruebas de programación agente; además, la versión insignia de Qwen ofrece una ventana de contexto de 1 millón de tokens. Sin embargo, según el Índice de Inteligencia de Artificial Analysis, GLM 5.2 (51) supera a DeepSeek V4 Pro (44) y a Kimi K2.6 (43). Dicho esto, la posición en un ranking no equivale a la idoneidad para tu base de código, y en suites propietarias de programación agente GLM 5.2 sigue quedando por detrás de los modelos frontera cerrados (Claude Opus 4.8). Para comprender cómo se comparan entre sí los demás laboratorios chinos, consulta nuestro análisis de DeepSeek V4 frente a Qwen 3, y, para el modelo más frecuentemente comparado con él, nuestra evaluación de Kimi K2.7 para programación. También los enfrentamos directamente en GLM 5.2 frente a Kimi K2.7 para programación.

Preguntas frecuentes

¿Es GLM 5.2 realmente de código abierto?

Los pesos se publican bajo licencia MIT, una de las licencias más permisivas disponibles, que permite su uso comercial, modificación y redistribución. Los pesos se hicieron públicos en Hugging Face (como zai-org/GLM-5.2 y una versión en FP8) el 16 de junio de 2026. Obsérvese que «pesos abiertos bajo licencia MIT» no equivale a un proyecto completamente de código abierto con datos de entrenamiento públicos; recibes el modelo, no la receta.

¿Cuánto cuesta usar GLM 5.2?

A través de la API, se espera un costo aproximado de 1,40 USD por millón de tokens de entrada y 4,40 USD por millón de tokens de salida en el punto final de Zhipu, con la caché reduciendo el costo de los tokens de entrada almacenados a unos 0,26 USD por millón. El plan de suscripción GLM Coding Plan suele ser más económico para un uso constante, con tarifas promocionales que comienzan alrededor de 10 USD/mes para la versión Lite y escalan hasta unos 80 USD/mes para la versión Máxima (los precios de lista son superiores). Proveedores de terceros como OpenRouter ofrecen tasas comparables por token.

¿Puedo ejecutar GLM 5.2 en mi propia GPU?

Solo si «mi propia GPU» significa un servidor con múltiples GPU. Los pesos de ~753 000 millones requieren aproximadamente 8× H200 en FP8, o bien unos 4× H200 (o más tarjetas con menor memoria) con cuantización INT4, y la ventana de contexto de 1 millón de tokens añade una exigente demanda adicional sobre la caché KV. Una sola GPU para consumidores no puede ejecutar este modelo; para ello necesitas un modelo local más pequeño y diseñado específicamente para ese propósito.

¿Funciona GLM 5.2 con Claude Code?

Sí. Zhipu ofrece un punto final compatible con Anthropic, por lo que puedes configurar Claude Code para que apunte a https://api.z.ai/api/anthropic, set the model to glm-5.2[1m], and supply a Z.ai API key. Raising the request timeout is recommended for long planning runs. The same approach works for Cline, OpenCode, OpenClaw, Goose, Roo Code, Crush, and Kilo Code.

¿Cómo se compara la ventana de contexto de GLM 5.2 con la de GLM 5.1?

Es cinco veces mayor: 1 000 000 de tokens frente a aproximadamente 200 000 en GLM 5.1. El número máximo de tokens de salida también se mantiene alto, en 131 072 tokens, lo que, combinado con la gran ventana de contexto, hace que GLM 5.2 sea más adecuado para mantener una base de código completa junto con una larga transcripción de agente en una única sesión.

¿Publicó Zhipu benchmarks para GLM 5.2?

No en el lanzamiento del Plan de Programación del 13 de junio; esa versión se centró en la disponibilidad y en la hoja de ruta de los pesos abiertos. No obstante, Zhipu publicó una tabla completa de benchmarks cuando los pesos se hicieron públicos el 16 de junio, y laboratorios independientes siguieron su ejemplo: Artificial Analysis lo califica como el mejor modelo de pesos abiertos en su Índice de Inteligencia (51), y Code Arena lo sitúa en el segundo puesto en programación frontend. Las puntuaciones de programación agente realizadas por el proveedor (SWE-bench Pro 62,1, Terminal-Bench 2,1 de 81,0) deben seguir verificándose con evaluaciones neutrales.

¿Es GLM 5.2 mejor que Kimi K2 o DeepSeek para programación?

Actualmente lidera a ambos en inteligencia agregada independiente: Artificial Analysis otorga a GLM 5.2 una puntuación de 51, frente a los valores en los bajos cuarenta de DeepSeek V4 Pro y Kimi K2.6, y encabeza también la tabla de programación frontend de Code Arena. En cualquier tarea específica de programación agente, la brecha puede reducirse o incluso invertirse, y los tres modelos publican resultados detallados en SWE-bench; por tanto, para una decisión crítica, realiza una comparación directa en tu propio repositorio, en lugar de confiar únicamente en un único ranking.

Conclusión

GLM 5.2 es un lanzamiento real y destacado: un modelo de programación con ~753 000 millones de parámetros, licenciado bajo MIT, una ventana de contexto de 1 millón de tokens y una API compatible con Anthropic que permite sustituirlo fácilmente en Claude Code o Cline en cuestión de segundos. Para usuarios intensivos de programación agente que necesitan una larga ventana de contexto y una licencia permisiva, su propuesta de valor es sólida, y los precios del Plan de Programación son muy competitivos.

La brecha en los benchmarks que definió las primeras 72 horas ya se ha cerrado: los evaluadores independientes ahora clasifican a GLM 5.2 como el mejor modelo de pesos abiertos en inteligencia agregada y casi en la cima en programación frontend, lo cual constituye una credencial genuina. No obstante, ten en cuenta dos advertencias. Las afirmaciones más llamativas de «supera a GPT-5.5» se basan en benchmarks agente gestionados por el proveedor, donde GLM 5.2 sigue quedando por detrás de Claude Opus 4.8, y el modelo consume muchos tokens de salida, por lo que debes verificar su rentabilidad económica en tu propia carga de trabajo. La realidad del hardware apunta en la misma dirección: para casi todos los usuarios, esto es una API en la nube para probar, no unos pesos para autoalojar. Una prueba seria está claramente justificada; si merece una migración completa dependerá de cómo se desempeñe con tu código, no de su posición en un ranking.

Scroll to Top