Hace tan solo unos meses, DeepSeek sacudió los cimientos del mundo tecnológico. Esta compañía china presentó DeepSeek R1, un modelo de razonamiento en inteligencia artificial que, pese a utilizar menos recursos y hardware menos potente, logró equipararse a gigantes como ChatGPT-4. Para muchos, fue como ver a un pequeño barco enfrentarse a un transatlántico y mantenerse a flote.
Lo más impactante fue que DeepSeek logró este avance utilizando GPUs de NVIDIA menos potentes y gracias a optimizaciones de software innovadoras. Además, liberó su modelo como código abierto, permitiendo a cualquier persona instalarlo de manera gratuita y ejecutarlo localmente, sin necesidad de conectarse a internet. Esto rompió la idea de que solo las grandes inversiones en hardware de última generación podían liderar el desarrollo de IA avanzada.
La noticia provocó una reacción en cadena en los mercados bursátiles, demostrando que el acceso a tecnología de punta ya no era una barrera infranqueable para nuevos competidores.
Controversias y preocupaciones
Como ocurre a menudo cuando una nueva tecnología irrumpe, no todo fue entusiasmo. OpenAI acusó a DeepSeek de haberse apoyado en datos provenientes de ChatGPT para entrenar su modelo, y surgieron inquietudes sobre la privacidad y la seguridad de los datos, ya que las aplicaciones móviles de DeepSeek envían información a servidores en China. Como medida de precaución, muchos usuarios prefirieron instalar el modelo directamente en sus ordenadores personales.
La llegada de DeepSeek R2
Hoy, los rumores indican que DeepSeek R2 está a la vuelta de la esquina, preparado para competir directamente contra los modelos más recientes de OpenAI, como o3 y o4-mini. A diferencia del terremoto bursátil que provocó R1, ahora el mercado está más preparado y los analistas consideran que no se repetirá una caída similar.
La verdadera sorpresa no sería el modelo en sí, sino el hecho de que DeepSeek habría dejado de depender de NVIDIA, optando por los chips Ascend 910B de Huawei para el entrenamiento de R2. Esta jugada refuerza su autonomía tecnológica, gracias también a una cadena de suministro local que reduce su dependencia de proveedores externos y agiliza su crecimiento.
DeepSeek R2: Características principales
Según las filtraciones, el nuevo modelo tendrá 1,2 billones de parámetros en total, aunque utilizará solo 78 mil millones de parámetros por token gracias a su arquitectura Mixture-of-Experts (MoE). Esta estructura es como tener un enorme equipo de especialistas, donde solo los expertos necesarios intervienen en cada tarea específica, haciendo que el sistema sea más eficiente y menos costoso.
Esta eficiencia se traduce en cifras impresionantes: entrenar DeepSeek R2 habría sido un 97,3% más barato que GPT-4. Los costos de inferencia también se habrían reducido en la misma proporción, ofreciendo precios muy competitivos: $0,07 por cada millón de tokens de entrada y $0,27 por cada millón de tokens de salida.
Entrenamiento de alto nivel
DeepSeek no escatimó en datos para el entrenamiento de su nuevo modelo. Se habla de 5,2 petabytes de datos de alta calidad, incluyendo información de sectores como finanzas, derecho y patentes. Este enfoque sugiere que R2 estará especialmente capacitado para resolver problemas complejos en estos ámbitos, como un abogado, un contador y un ingeniero trabajando en conjunto dentro de un mismo sistema.
Capacidades multimodales
Otro punto a destacar es que DeepSeek R2 tendrá capacidades multimodales avanzadas, es decir, podrá procesar no solo texto, sino también imágenes de alta calidad. Imaginemos que le mostramos una fotografía de un plano arquitectónico: R2 sería capaz de analizarlo y explicarlo de forma detallada, uniendo visión computacional y razón de forma fluida.
Expectativas sobre el lanzamiento
Aunque no hay una fecha oficial confirmada, todo apunta a que DeepSeek R2 podría ver la luz a principios de mayo o en las semanas siguientes. La comunidad tecnológica está expectante, sabiendo que cada nuevo modelo de esta empresa puede cambiar las reglas del juego.
¿Qué significa DeepSeek R2 para el futuro de la IA?
El impacto de DeepSeek R2 va más allá de su potencia técnica. Representa un ejemplo de cómo las limitaciones pueden convertirse en catalizadores de la innovación. Ante la falta de acceso a los recursos más avanzados, DeepSeek encontró formas de hacer más con menos, como quien construye una casa resistente usando herramientas simples pero con mucha ingeniería.
Si las promesas se cumplen, R2 podría consolidar un nuevo modelo de desarrollo en IA, donde eficiencia, localización de recursos y estrategias inteligentes de optimización tienen tanto peso como la pura potencia bruta.
