DeepSeek V4 Pro: 1,6 billones de parámetros, el open-weight más grande del mundo y precios que aprietan de nuevo al frontier americano

DeepSeek ha lanzado este 24 de abril la preview de DeepSeek V4, con dos variantes: V4 Flash (284.000 millones de parámetros, 13.000 millones activos) y V4 Pro (1,6 billones de parámetros, 49.000 millones activos). Ambos son modelos Mixture-of-Experts con ventana de contexto de 1 millón de tokens. Ram Iyer lo cubre en TechCrunch. La cifra que marca el anuncio: V4 Pro se convierte con esos 1,6 billones de parámetros en el mayor modelo open-weight del mundo, superando a Moonshot AI Kimi K 2.6 (1,1 billones), a MiniMax M1 (456.000 millones) y duplicando holgadamente a su propio antecesor V3.2 (671.000 millones).

El reclamo comercial es explícito: DeepSeek sostiene que V4 ha «cerrado la brecha» con los modelos frontier, tanto propietarios como abiertos, en benchmarks de razonamiento. El V4-Pro-Max supera a GPT-5.2 de OpenAI y a Gemini 3.0 Pro de Google en algunas tareas, y en benchmarks de coding competition el rendimiento de ambas variantes V4 es «comparable a GPT-5.4». Pero DeepSeek también reconoce el matiz importante: en tests de conocimiento general, los V4 siguen «ligeramente por detrás» de GPT-5.4 y Gemini 3.1 Pro, lo que sugiere una trayectoria de desarrollo que rastrea a los frontier models con 3-6 meses de desfase. Los modelos solo soportan texto, a diferencia de muchos competidores propietarios que ofrecen comprensión y generación de audio, vídeo e imágenes.

Los precios: la guerra sigue abierta

El argumento comercial más potente de DeepSeek sigue siendo el mismo que popularizó R1 en enero de 2025: precio radicalmente inferior al frontier americano. V4 Flash cuesta 0,14 dólares por millón de tokens input y 0,28 dólares por millón de tokens output, lo que deja por debajo a GPT-5.4 Nano, Gemini 3.1 Flash, GPT-5.4 Mini y Claude Haiku 4.5. V4 Pro cuesta 0,145 dólares input y 3,48 dólares output por millón, también por debajo de Gemini 3.1 Pro. La asimetría input-output en V4 Pro es reveladora: DeepSeek está subsidiando el input (procesar documentos largos) agresivamente para atraer casos de uso enterprise que requieren contexto masivo. Es la misma estrategia que usaron con V3: bajar el coste de entrada tan abajo que workflows que eran económicamente inviables con GPT o Claude se vuelven viables con DeepSeek.

La irrupción de DeepSeek en enero de 2025 con R1 tomó al mundo de la IA por asalto y obligó a OpenAI, Google y Anthropic a responder con cambios estructurales en sus modelos de precios, y V4 es la continuación lógica de esa estrategia de presión por coste desde China. La lección que el mercado lleva 15 meses digiriendo es que la ventaja competitiva no está solo en el tamaño del modelo ni en el número de parámetros: está en la eficiencia con la que se extrae rendimiento de menos recursos.

Mixture-of-Experts: por qué 1,6 billones solo activa 49.000 millones

Para entender la propuesta técnica hay que explicar el concepto de Mixture-of-Experts. Un modelo MoE divide el conocimiento en «expertos» especializados y, para cada consulta, solo activa los expertos relevantes. En V4 Pro, de los 1,6 billones de parámetros totales, solo 49.000 millones se activan por tarea. Eso significa menor coste de inferencia (menos compute por respuesta), menor latencia (el modelo no procesa información irrelevante) y la posibilidad de entrenar modelos gigantes sin los costes de un modelo denso equivalente. Es la arquitectura que permite a DeepSeek escalar a 1,6 billones de parámetros manteniendo precios competitivos.

El compromiso es sutil pero real: los modelos MoE tienden a tener picos de especialización (muy buenos en tareas alineadas con sus expertos entrenados) y valles en tareas fuera de ese espectro. Por eso DeepSeek es especialmente fuerte en matemáticas, programación y razonamiento estructurado, y se queda atrás en conocimiento general que requiere densidad distribuida uniformemente. Esa sigue siendo la brecha estructural con GPT-5.4 y Gemini 3.1 Pro que DeepSeek reconoce abiertamente.

El contexto geopolítico y de mercado

DeepSeek V4 llega en un momento donde la presión geopolítica sobre la exportación de chips a China se mantiene. La empresa ha ido demostrando que puede seguir innovando con limitaciones de hardware, y el salto de V3.2 a V4 en seis meses es la prueba más reciente de que las restricciones no han frenado el ritmo. En diciembre de 2025 DeepSeek ya había presentado V3.2 y V3.2 Speciale como sistemas de razonamiento de vanguardia que competían con GPT-5 y Gemini 3.0 Pro, lo que marcó el patrón que V4 ahora amplifica.

La publicación de V4 en HuggingFace bajo licencia abierta permite a cualquier desarrollador descargar los pesos, ejecutar el modelo localmente (con la infraestructura adecuada) o desplegarlo en su propia cloud. Eso contrasta con GPT-5.5 de OpenAI (solo API), Gemini 3.1 Pro de Google (solo API) y Claude Opus 4.7 (solo API). Para empresas con restricciones de residencia de datos o preocupaciones de vendor lock-in, DeepSeek sigue siendo la opción con mayor flexibilidad operativa.

Mi valoración

V4 consolida a DeepSeek como el segundo polo real de la IA generativa: no el número dos por detrás de OpenAI, sino una alternativa arquitectónicamente distinta (MoE agresivo, open-weight, precios disruptivos, origen chino) que define un modelo de mercado distinto. Para el ecosistema, la existencia de DeepSeek es sanamente incómoda. Obliga a OpenAI, Anthropic y Google a justificar sus precios con valor que DeepSeek no puede replicar: calidad superior en conocimiento general, multimodalidad nativa, integración con ecosistemas, garantías enterprise de compliance y auditoría. Son argumentos defendibles, pero que cada vez necesitan más datos para sostenerse. La brecha de 3-6 meses que DeepSeek reconoce es el indicador más honesto de su posición. No pretenden liderar el frontier absoluto; pretenden quedarse un paso por detrás a precio una fracción. Eso es un modelo de negocio completamente viable. Starbucks no pretende ser el mejor café del mundo, pretende ser un café bueno-suficiente al que la gente pueda acceder globalmente. DeepSeek está construyendo la Starbucks de la IA: lo bastante bueno, mucho más barato, disponible en todas partes. Para empresas europeas y latinoamericanas con presupuesto limitado y casos de uso que no necesitan absolutamente el frontier, V4 es probablemente la mejor relación calidad-precio que pueden encontrar hoy. La contrapartida es el contexto político: datos a servidores chinos, restricciones en jurisdicciones como EE.UU. (gobierno federal no puede usarlo), Alemania e Italia (prohibiciones por privacidad). Para el despliegue on-premise con los pesos descargados, ese riesgo desaparece. Para la API de DeepSeek, persiste. El 2026 va a ser el año donde muchas empresas hagan la pregunta explícita: ¿cuánto estamos dispuestos a pagar por evitar que nuestros datos pasen por infraestructura china? La respuesta individualiza la decisión de adopción.

Preguntas frecuentes

¿Puedo usar DeepSeek V4 en producción? Depende de tu jurisdicción. La API de DeepSeek está bloqueada o desaconsejada en varios países (EE.UU. dispositivos gubernamentales, Alemania, Italia). Los pesos son descargables desde HuggingFace para despliegue local, lo que evita el problema de residencia de datos pero requiere infraestructura propia.

¿Es realmente tan bueno como GPT-5.4? En coding competition, según benchmarks propios de DeepSeek, comparable. En conocimiento general, «3-6 meses por detrás» según reconoce la propia DeepSeek. Para razonamiento matemático y coding es una alternativa seria; para tareas que requieren amplio conocimiento actualizado del mundo, los frontier models siguen teniendo ventaja.

¿Hay multimodalidad? No. V4 Flash y V4 Pro son solo texto. Para audio, imágenes o vídeo, hay que recurrir a otros modelos.