Un usuario de Xataka necesitaba resolver un problema concreto antes del eclipse total de sol del 12 de agosto de 2026: saber cuál era el punto más cercano a su ubicación donde la totalidad se viera perfecta, sin tener que perder horas viajando. La solución no fue buscar un mapa existente — fue programar una aplicación propia con IA para resolverlo, usando la ocasión como banco de pruebas para el modelo chino GLM-5.2 de Zhipu AI (Z.ai), recién lanzado.
Lo cuenta el propio autor en Xataka este 30 de junio, en un relato de desarrollo en primera persona que funciona simultáneamente como tutorial de uso de IA agéntica y como prueba de rendimiento del modelo en condiciones reales, no en benchmarks sintéticos.
El planteamiento: de una conversación con ChatGPT a un agente programando en local
El proceso empezó con una conversación exploratoria en ChatGPT para entender el problema —dónde se vería el eclipse total más cerca de una ubicación de origen dada— y un resumen ejecutivo de esa conversación que el autor llevó después a su propio entorno de desarrollo. El autor lleva meses suscrito a la plataforma de Z.ai tras aprovechar una oferta de finales de 2025, y ahora que GLM-5.2 estaba disponible, vio la oportunidad de comprobar de primera mano cómo se comportaba frente a Claude Opus 4.8 o GPT-5.5 en una tarea de programación real, no en un benchmark.
El flujo de trabajo concreto: crear un directorio en un Mac mini M4, entrar en él, y lanzar Claude Code preseleccionando GLM-5.2 como modelo (claude --model glm-5.2). Una vez iniciado el agente, el autor explicó el contexto de su conversación previa con ChatGPT, copió el resumen ejecutivo, y dio las directrices finales para que el agente comenzara a planificar y construir la aplicación.
GLM-5.2 fue lanzado por Zhipu AI bajo licencia MIT el 13 de junio de 2026 — un día después de que el gobierno de EE.UU. bloqueara el acceso internacional a Claude Mythos 5 — y evaluaciones independientes de Semgrep y Graphistry ya habían confirmado que el modelo iguala o supera a los modelos de ciberseguridad estadounidenses en sus propias tareas. Este caso de uso es la otra cara de esa noticia: cómo se comporta el mismo modelo en una tarea de programación cotidiana, lejos del contexto geopolítico de ciberseguridad.
Los resultados: autocorrección y un fallo de geolocalización que el agente arregló solo
El comportamiento más destacable del agente, según el relato del autor, fue su capacidad de autocorrección sin intervención. Al probar la aplicación con Barcelona como origen, el sistema fallaba inicialmente: mostraba puntos de observación demasiado alejados del óptimo. El modelo, al analizar por qué estaba pasando eso, identificó el problema por sí mismo, lo corrigió, y planteó opciones mucho más razonables sin que el autor tuviera que diagnosticar el fallo manualmente.
El sistema desarrolló también un comportamiento de autocompletado de localidades inconsistente —algunas se autocompletan al escribir, otras no— pero con un detalle curioso: incluso cuando una localidad introducida no aparece en el autocompletado, el sistema sigue detectando correctamente el origen y calculando los puntos de observación más cercanos. Si la localidad de origen ya está dentro de la franja de totalidad perfecta del eclipse, la aplicación muestra un mensaje informativo directo: no hace falta moverse, el eclipse se verá perfectamente desde ahí.
La lógica de optimización que el agente implementó prioriza acortar la duración del viaje necesario sin sacrificar el tiempo de visibilidad de la totalidad — exactamente el balance que el autor había definido como objetivo, lo que confirma que el sistema entendió y mantuvo la especificación original a lo largo de varias iteraciones de corrección.
Este tipo de flujo de trabajo —describir una idea en lenguaje natural y dejar que el agente genere y corrija el código por sí mismo— es exactamente lo que se conoce como vibe coding, una tendencia que ha reducido drásticamente la barrera de entrada a la programación pero que también exige confiar en decisiones técnicas que el usuario no siempre puede verificar línea por línea. La adopción de estos asistentes ya no es experimental: directivos de grandes tecnológicas citan cifras de hasta el 30% de código generado por IA en sus organizaciones, y el caso del eclipse demuestra que la misma dinámica funciona igual de bien para un desarrollador individual resolviendo un problema personal.
Mi valoración
He cubierto el desarrollo de agentes de programación con IA desde las primeras versiones de GitHub Copilot, y este tipo de pruebas en primera persona —con un problema real y verificable, no un benchmark— son las que más información útil aportan sobre el estado real de estos modelos. Lo que más me convence del relato es la honestidad metodológica: el autor no afirma que GLM-5.2 sea objetivamente mejor que Claude o GPT, solo describe lo que observó en un caso de uso concreto, que es exactamente el nivel de rigor que este tipo de comparaciones informales debería tener.
Lo que más me preocupa, desde una perspectiva más amplia, es la dependencia creciente del usuario en confiar ciegamente en las decisiones técnicas del agente sin verificación independiente — el propio autor lo reconoce cuando dice que confía en que las decisiones técnicas «funcionan», aunque podría haber otras localidades candidatas igualmente válidas que el sistema no consideró.
Mi predicción: este tipo de pruebas informales, publicadas por desarrolladores individuales resolviendo problemas reales, se convertirán en una fuente de evaluación de modelos tan relevante como los benchmarks formales, precisamente porque capturan fricciones de uso real —como el autocompletado inconsistente de localidades— que los benchmarks sintéticos no detectan.
Preguntas frecuentes
¿Qué es Claude Code y por qué se puede usar con un modelo de otra empresa como GLM-5.2?
Claude Code es la herramienta de Anthropic para programación agéntica desde la terminal, pero permite configurar qué modelo subyacente utiliza mediante el parámetro --model. Eso significa que la interfaz y el flujo de trabajo de Claude Code pueden combinarse con modelos de otros proveedores —en este caso GLM-5.2 de Zhipu AI— siempre que el usuario tenga acceso a la API correspondiente, lo que permite comparar el comportamiento de distintos modelos dentro del mismo entorno de desarrollo.
¿Es seguro usar un modelo chino como GLM-5.2 para programar aplicaciones propias?
Depende del contexto de uso. Para proyectos personales o de bajo riesgo como el descrito en este caso —una aplicación para consultar dónde ver un eclipse— el riesgo práctico es mínimo. Para proyectos empresariales con datos sensibles, conviene considerar que el acceso a la API de Z.ai está sujeto a la legislación china, que en algunos contextos regulatorios europeos puede generar fricciones bajo el RGPD si implica transferencia de datos personales a infraestructura fuera de la UE.
