El mundo de la inteligencia artificial (IA) se vio sacudido recientemente cuando DeepSeek, una startup china, afirmó haber entrenado su modelo R1 con una inversión de tan solo 5,5 millones de dólares. Esto desafió la narrativa establecida de que desarrollar modelos de IA de alto nivel requiere inversiones multimillonarias. Sin embargo, un nuevo informe revela que la realidad podría ser muy distinta: DeepSeek habría gastado hasta 1.600 millones de dólares en infraestructura y operación.
El impacto en el mercado: Un golpe a Nvidia
La afirmación de DeepSeek tuvo un efecto inmediato en la bolsa, provocando una pérdida de 600.000 millones de dólares en el valor de mercado de Nvidia en un solo día. Si la startup logró crear un modelo competitivo sin gastar miles de millones en GPUs de Nvidia, la pregunta obvia es: ¿qué impediría a otras empresas hacer lo mismo?
Sin embargo, el informe de SemiAnalysis sugiere que la historia no es tan simple. Según sus hallazgos, DeepSeek tendría acceso a unas 50.000 GPUs de la arquitectura Hopper, incluyendo 10.000 H800s y 10.000 H100s, además de pedidos adicionales de H20s, diseñadas específicamente para el mercado chino. Esto cambia drásticamente la narrativa inicial.
La verdadera inversión de DeepSeek
Si bien es cierto que el costo de preentrenamiento de R1 podría haber sido de 5,5 millones de dólares, esta cifra representa solo una parte mínima del costo total del proyecto. Según SemiAnalysis, la inversión total en servidores asciende a 1.600 millones de dólares, con 944 millones destinados a costos operativos y más de 500 millones en la compra de GPUs.
Comparado con el desarrollo de otros modelos de IA, la inversión sigue siendo considerable. Por ejemplo, Anthropic gastó decenas de millones en entrenar Claude 3.5 Sonnet, y aún así necesitó miles de millones de dólares en inversión de Google y Amazon para mantenerse competitivo.
Ventajas estratégicas de DeepSeek
DeepSeek se distingue de otras empresas de IA chinas en varios aspectos:
- Acceso a talento local: A diferencia de Huawei y otras firmas chinas que intentan atraer ingenieros de TSMC en Taiwán, DeepSeek recluta exclusivamente talento chino. Sus ofertas salariales superan los 1,3 millones de dólares, lo que la coloca por encima de la competencia.
- Infraestructura propia: A diferencia de muchos desarrolladores de IA que dependen de proveedores externos de nubes como Microsoft Azure o Google Cloud, DeepSeek opera sus propios centros de datos. Esto le otorga mayor control sobre la infraestructura y permite optimizar costos.
- Un modelo de IA de «pesos abiertos»: SemiAnalysis considera a DeepSeek el mejor laboratorio de «open weights» del mundo, superando a Meta con Llama, a Mistral y a otros actores del sector.
El caso de DeepSeek refleja cómo la industria de la IA está en constante evolución, con empresas emergentes desafiando a gigantes como OpenAI y Google. Sin embargo, la narrativa de un modelo competitivo entrenado con recursos «limitados» parece haber sido más una estrategia mediática que una realidad.
Desde WWWhatsnew creemos que este episodio deja una lección clara: en el mundo de la inteligencia artificial, las cifras a menudo pueden ser engañosas. Y aunque DeepSeek podría haber gastado menos que sus competidores, está claro que no se trata de una startup que haya construido una IA con «presupuesto limitado».