En el vertiginoso mundo de la inteligencia artificial, uno de los grandes desafíos es enseñar a los modelos no solo a responder, sino a evaluarse a sí mismos con sentido crítico. Como cuando uno escribe un texto y luego lo relee para detectar errores o mejorar el estilo, las IA también necesitan desarrollar esa capacidad de reflexión. Y eso es precisamente lo que propone DeepSeek con su nuevo modelo DeepSeek-GRM, una ambiciosa propuesta de código abierto que introduce técnicas avanzadas de evaluación interna.
¿Qué es DeepSeek-GRM y por qué es relevante?
DeepSeek-GRM es un modelo de 27 mil millones de parámetros, una cifra que lo ubica entre los modelos de gran escala dentro del ecosistema de IA generativa. Está construido a partir de Gemma-2-27B, el modelo de Google lanzado recientemente como proyecto abierto, y ha sido optimizado con una técnica innovadora de entrenamiento denominada Self-Principled Critique Tuning (SPCT).
Este modelo no es solo una mejora en tamaño o potencia. Su principal novedad es cómo incorpora un mecanismo de autoevaluación que permite generar mejores recompensas durante el proceso de aprendizaje, lo que se traduce en respuestas más coherentes, útiles y alineadas con el sentido común humano.
¿Qué es SPCT y cómo funciona?
La técnica Self-Principled Critique Tuning podría compararse con enseñarle a una IA a tener su propio «consejero interno». SPCT entrena al modelo para que sea capaz de formular principios rectores propios y realizar críticas internas a sus respuestas. Es decir, no solo genera un resultado, sino que también puede “leerlo” y juzgar si está bien construido o si necesita una corrección.
Imagina que estás aprendiendo a cocinar y, en lugar de depender siempre de un chef que te diga si lo hiciste bien, desarrollas tu propio criterio: hueles, pruebas, evalúas y ajustas. Ese es el tipo de autonomía que busca SPCT para las IA generativas.
Este enfoque permite escalar los procesos de generación de recompensas sin depender tanto de evaluaciones humanas o de otros modelos externos, lo que mejora la eficiencia del entrenamiento y la calidad del resultado.
Un modelo más inteligente gracias a más potencia en el momento justo
Otra clave del éxito de DeepSeek-GRM es el uso intensivo de recursos durante el tiempo de inferencia. La propuesta de los investigadores incluye ejecutar múltiples muestras de salida de forma simultánea, lo que permite explorar varias alternativas antes de decidir cuál es la mejor. Esta estrategia, aunque exige más cómputo, mejora la capacidad del modelo para generar respuestas más acertadas.
En los tests realizados, DeepSeek-GRM obtuvo puntuaciones sólidas en distintos benchmarks de reward modeling, consolidando su posición como una opción potente para tareas donde la calidad del razonamiento y la evaluación interna son fundamentales.
¿Qué significa esto para la comunidad open source?
Uno de los aspectos más importantes de este anuncio es que DeepSeek-GRM será publicado como modelo de código abierto. Esto significa que investigadores, desarrolladores y empresas podrán acceder al modelo, adaptarlo a sus necesidades y construir nuevas herramientas basadas en su arquitectura.
En un momento donde muchos modelos avanzados permanecen cerrados o solo accesibles mediante APIs comerciales, la decisión de liberar este modelo abre nuevas posibilidades para el ecosistema de IA, especialmente para aquellas organizaciones con recursos limitados pero con ambiciones grandes.
DeepSeek sigue marcando ritmo en 2025
Este lanzamiento llega pocas semanas después de otra novedad de la compañía: la versión DeepSeek V3-0324, que actualmente lidera los rankings de modelos no orientados al razonamiento. Según la plataforma Artificial Analysis, esta es la primera vez que un modelo con pesos abiertos alcanza la cima de su índice de inteligencia en esta categoría, lo que refuerza el compromiso de DeepSeek con el avance comunitario de la IA.
Además, se espera próximamente la llegada de DeepSeek-R2, sucesor de su modelo de razonamiento R1, que promete mejoras en generación de código y comprensión multilingüe. Si bien su lanzamiento estaba previsto para mayo, la empresa estaría adelantando su disponibilidad.
¿Por qué todo esto importa?
Estamos en una etapa de la evolución de la inteligencia artificial en la que ya no basta con que un modelo «diga cosas coherentes». Necesitamos que entienda, evalúe y mejore sus propios razonamientos, especialmente en contextos donde la precisión y la ética son fundamentales: desde la atención médica hasta la toma de decisiones empresariales.
Con DeepSeek-GRM, se da un paso hacia una inteligencia artificial más madura, capaz de autoevaluarse y aprender con mayor autonomía. Y al estar disponible de forma abierta, este avance no se queda en manos de unos pocos, sino que se convierte en una herramienta accesible para toda la comunidad.
Un futuro donde las IA también se cuestionan a sí mismas
El concepto de una IA que se autoevalúa puede sonar futurista, pero es una pieza clave para el desarrollo de sistemas verdaderamente útiles y confiables. Así como nosotros aprendemos de nuestros errores cuando reflexionamos, las IA también deben desarrollar ese músculo mental para crecer.
DeepSeek-GRM y la técnica SPCT abren la puerta a ese tipo de modelos, más introspectivos y conscientes de la calidad de sus propias respuestas. Y eso, sin duda, marca un nuevo capítulo en el desarrollo de la inteligencia artificial de código abierto.