La inteligencia artificial avanza a pasos cada vez más firmes y veloces. Esta vez, la atención está puesta en DeepSeek, una startup china que ha generado revuelo desde inicios del año con su propuesta de IA de bajo costo y alto rendimiento. En colaboración con investigadores de la prestigiosa Universidad de Tsinghua, están desarrollando modelos que no solo razonan mejor, sino que aprenden a mejorar por sí mismos mientras trabajan.
Este nuevo enfoque tiene un nombre técnico: DeepSeek-GRM, que significa Generalist Reward Modeling o «modelo generalista de recompensas». Y aunque suene complejo, su objetivo es simple: que la IA aprenda como un humano que recibe consejos, se autocorrige y mejora cada vez más con la práctica.
Vamos a desglosarlo para entender qué significa todo esto, por qué es importante y cómo podría cambiar la forma en que usamos la inteligencia artificial en el día a día.
¿Qué es un modelo de recompensa y por qué importa?
Imagina que estás enseñando a un niño a andar en bicicleta. Cada vez que lo hace bien, le das una palabra de aliento o una sonrisa. Si comete un error, lo corriges con cuidado. Así, poco a poco, mejora.
Los modelos de recompensa en IA funcionan de forma parecida. Se les enseña qué tipo de respuestas o acciones son «buenas» y cuáles no lo son. A esto se le llama aprendizaje por refuerzo (reinforcement learning, en inglés). Es una técnica clave para que la IA no solo procese datos, sino que tome decisiones más acertadas en función de lo que ha aprendido.
Hasta ahora, esta técnica se usaba en contextos muy específicos, como juegos o tareas matemáticas. Pero escalarla a situaciones más generales y complejas (como conversar con humanos o entender textos ambiguos) ha sido un reto. Aquí es donde entra DeepSeek-GRM.
¿Qué propone DeepSeek-GRM?
El avance principal de DeepSeek-GRM está en un nuevo método que han llamado «self-principled critique tuning». En palabras más sencillas, es como si la IA desarrollara una especie de voz interna crítica que la guía a mejorar sus respuestas en tiempo real, sin necesidad de volver a ser entrenada desde cero.
Pongamos un ejemplo cotidiano: imagina que usas un asistente virtual y le preguntas por un restaurante cercano. Si sugiere uno que ya está cerrado, y tú le corriges, este sistema aprendería de ese error en ese mismo momento, ajustando su comportamiento futuro de forma autónoma y precisa.
Esto implica dos grandes beneficios:
Mayor alineación con preferencias humanas: los modelos pueden adaptar sus respuestas a lo que realmente espera el usuario.
Menor necesidad de recursos computacionales: al no tener que rehacer todo el entrenamiento desde cero, el proceso es más eficiente y ecológico.
¿Qué diferencia a DeepSeek de otros actores del sector?
DeepSeek no está sola en esta carrera. Empresas como OpenAI, Meta y Alibaba también están explorando la idea de que los modelos de IA puedan aprender en el acto, mientras realizan tareas.
Pero hay un factor que hace destacar a DeepSeek: su apuesta por modelos más ligeros y eficientes, usando una arquitectura llamada Mixture of Experts (MoE). Esta técnica permite que solo ciertas partes del modelo trabajen en cada momento, como si un equipo de expertos internos se turnara para resolver lo que mejor saben hacer.
Meta, por ejemplo, acaba de lanzar Llama 4, su nuevo modelo de IA, también basado en MoE. Pero incluso ellos han comparado sus avances con los de DeepSeek, reconociendo su eficiencia. Esto dice mucho del impacto que está teniendo esta startup con sede en Hangzhou.
¿Por qué importa que sea de código abierto?
Otro punto clave es que DeepSeek-GRM será modelo de código abierto, lo que significa que cualquier desarrollador, empresa o investigador podrá estudiar su funcionamiento, adaptarlo y usarlo libremente.
Esto es importante por varias razones:
Fomenta la innovación colaborativa: al compartir el conocimiento, se acelera el desarrollo de nuevas aplicaciones prácticas.
Permite auditorías externas: otros expertos pueden revisar el código y asegurarse de que la IA se comporta de forma ética y transparente.
Reduce la dependencia de grandes corporaciones: más jugadores pueden acceder a tecnología avanzada sin pagar altos costos.
Un paso hacia una inteligencia artificial más humana
Más allá de la técnica, el objetivo de fondo es acercar la inteligencia artificial al comportamiento humano. Que no solo responda rápido, sino que entienda el contexto, reconozca errores y se adapte con empatía.
La colaboración entre DeepSeek y la Universidad de Tsinghua es una muestra de cómo la academia y la industria pueden ir de la mano para resolver problemas reales. Al reducir el uso de recursos, hacer los modelos más comprensibles y permitir que aprendan por sí solos, están sentando las bases para una nueva generación de IA más sostenible, accesible y útil.
Este tipo de avances no solo beneficiará a empresas tecnológicas. También podría tener un impacto tangible en sectores como la educación, la salud, el comercio y la administración pública. Imagina sistemas educativos personalizados que se adaptan a cada alumno o asistentes médicos que aprenden de cada paciente para mejorar su diagnóstico.
¿Qué sigue para DeepSeek?
Aunque aún no se ha anunciado una fecha para el lanzamiento de su próximo modelo insignia, está claro que DeepSeek está marcando su propio camino. Al combinar una fuerte base de investigación con decisiones estratégicas como el código abierto y el bajo consumo de recursos, esta startup china está demostrando que hay otras formas de avanzar en inteligencia artificial más allá de las grandes marcas estadounidenses.
El camino hacia una IA verdaderamente útil y ética es largo, pero pasos como este nos acercan a ese horizonte.