La empresa china de inteligencia artificial DeepSeek ha sacudido el tablero global con el lanzamiento de dos nuevos modelos que, según sus creadores, igualan o superan las capacidades de GPT-5 de OpenAI y Gemini 3.0 Pro de Google. Los modelos DeepSeek-V3.2 y DeepSeek-V3.2-Speciale han sido presentados como sistemas de razonamiento de vanguardia y han logrado resultados sobresalientes en competencias internacionales de matemáticas, informática y programación.
Ambos modelos han sido liberados bajo una licencia MIT, lo que implica que cualquier desarrollador o empresa puede descargarlos, modificarlos y usarlos sin restricciones. Este movimiento pone en jaque el modelo de negocio basado en APIs pagas de las grandes tecnológicas, al ofrecer un rendimiento comparable de forma completamente gratuita.
Un cambio en la eficiencia del cálculo gracias a la atención dispersa
Uno de los aspectos técnicos más llamativos del nuevo lanzamiento es la implementación de la tecnología DeepSeek Sparse Attention (DSA). Este mecanismo rompe con la estructura tradicional de atención en modelos de lenguaje, que crece exponencialmente en consumo computacional a medida que aumenta la longitud del texto procesado.
Gracias a un sistema que funciona como un «indexador relámpago«, DSA selecciona solo los fragmentos más relevantes del contexto, ignorando lo que no aporta al resultado. Esto ha permitido reducir el costo de inferencia a menos de un tercio en tareas de largo alcance. Por ejemplo, procesar 128.000 tokens, lo equivalente a un libro de 300 páginas, ahora cuesta unos 0,70 dólares por millón de tokens, comparado con los 2,40 dólares del modelo anterior.
Resultados de competencia que validan su nivel
El modelo DeepSeek-V3.2-Speciale fue evaluado en las olimpiadas matemáticas y de informática más exigentes del mundo. En la Olimpíada Matemática Internacional de 2025, obtuvo medalla de oro con 35 puntos sobre 42. En la Olimpíada Internacional de Informática, logró 492 de 600 puntos, posicionándose en el top 10. Además, resolvió 10 de 12 problemas en la final mundial del ICPC, quedando en segundo lugar.
En comparación con los modelos estadounidenses, también mostró desempeños impresionantes en benchmarks como el AIME 2025 y el Harvard-MIT Mathematics Tournament, superando incluso a GPT-5-High y Gemini en algunos casos. Todo esto sin acceso a internet ni herramientas externas durante las pruebas, lo que realza el valor del razonamiento interno del modelo.
Uso de herramientas sin perder el hilo
Una de las innovaciones clave de DeepSeek es su capacidad para razonar mientras utiliza herramientas. Muchos modelos anteriores perdían el contexto o tenían que reiniciar el razonamiento al ejecutar funciones externas como búsquedas en la web o ejecución de código. DeepSeek ha solucionado este problema conservando la cadena de pensamiento incluso tras varios llamados a herramientas.
Para lograrlo, se entrenó al modelo con un volumen masivo de datos sintéticos, incluyendo 85.000 instrucciones complejas y 1.800 entornos de tareas distintas. Estas tareas simulaban situaciones como planificar viajes, arreglar errores en programas y hacer investigaciones web bajo restricciones económicas y logísticas. El objetivo era entrenar a la IA como si fuera un asistente capaz de realizar varias tareas encadenadas, tal como lo haría un humano en un día de trabajo.
Código abierto como estrategia disruptiva
Al publicar sus modelos bajo código abierto, DeepSeek redefine la competencia en el sector. Con modelos de 685.000 millones de parámetros disponibles en plataformas como Hugging Face, investigadores y empresas pueden utilizarlos de forma directa y sin coste.
La estrategia también incluye herramientas de migración desde plataformas como OpenAI, facilitando que desarrolladores cambien de proveedor sin fricciones. Para empresas, esto se traduce en reducción de costos y mayor libertad de despliegue, aunque surgen preocupaciones sobre la residencia de datos y la regulación internacional debido al origen chino de la compañía.
Obstáculos regulatorios y tensiones internacionales
La reacción internacional no se ha hecho esperar. Autoridades en Alemania e Italia han bloqueado la aplicación de DeepSeek por preocupaciones sobre privacidad de datos. En Estados Unidos, legisladores han propuesto prohibir su uso en dispositivos gubernamentales. El temor radica en el acceso potencial del gobierno chino a los datos recolectados por empresas de su país.
También surgen interrogantes sobre las restricciones de exportación impuestas por EE. UU. a chips de Nvidia. A pesar de estas limitaciones, DeepSeek ha seguido avanzando, usando chips chinos de Huawei y Cambricon, lo que demuestra que las barreras tecnológicas no han sido suficientes para frenar su progreso.
Implicaciones para el futuro de la IA global
La aparición de DeepSeek en este nivel marca una nueva etapa en la carrera global por la inteligencia artificial. La posibilidad de alcanzar rendimiento de frontera con recursos más eficientes y acceso abierto pone en duda si el liderazgo debe seguir concentrado en Silicon Valley.
El informe técnico de la compañía destaca que, aunque aún queda por mejorar la amplitud de conocimientos generales del modelo, las bases para competir ya están firmemente establecidas. Con inversiones post-entrenamiento superiores al 10% del entrenamiento inicial, el foco está puesto en afinar capacidades de razonamiento y adaptabilidad.
Mientras los grandes actores siguen defendiendo sus modelos cerrados, DeepSeek ha mostrado que abrir la caja negra puede ser una ventaja estratégica. El modelo Speciale estará disponible mediante API hasta el 15 de diciembre, y luego se integrará al modelo general, que sí incluye capacidades de uso de herramientas.
