DeepSeek presenta mHC: la ingeniería (y la matemática) para entrenar LLM con menos fricción

Cuando hablamos de modelos de lenguaje cada vez más capaces, casi siempre miramos el resultado final: un chatbot que razona mejor, un generador de código más fino, un asistente que entiende contexto largo. DeepSeek ha puesto el foco en otra parte del iceberg: el proceso de entrenamiento. Su propuesta, mHC (siglas de Manifold-Constrained Hyper-Connections), se plantea como una forma de entrenar grandes LLM con más estabilidad y con un coste incremental contenido, algo que no suena tan vistoso como un nuevo modelo, pero que suele ser lo que permite que la siguiente generación exista.

En términos cotidianos, es la diferencia entre comprar un coche más potente y mejorar la autopista por la que circula. Puedes tener un motor impresionante, pero si el asfalto está lleno de baches, el viaje se vuelve lento, caro y propenso a accidentes. DeepSeek dice haber encontrado una manera de “asfaltar” mejor la parte interna de la red neuronal para que el entrenamiento escale sin volverse frágil. Continúa leyendo «DeepSeek presenta mHC: la ingeniería (y la matemática) para entrenar LLM con menos fricción»

DeepSeek lanza modelos de IA que desafían a GPT-5 y Gemini, y los ofrece de forma gratuita

La empresa china de inteligencia artificial DeepSeek ha sacudido el tablero global con el lanzamiento de dos nuevos modelos que, según sus creadores, igualan o superan las capacidades de GPT-5 de OpenAI y Gemini 3.0 Pro de Google. Los modelos DeepSeek-V3.2 y DeepSeek-V3.2-Speciale han sido presentados como sistemas de razonamiento de vanguardia y han logrado resultados sobresalientes en competencias internacionales de matemáticas, informática y programación.

Ambos modelos han sido liberados bajo una licencia MIT, lo que implica que cualquier desarrollador o empresa puede descargarlos, modificarlos y usarlos sin restricciones. Este movimiento pone en jaque el modelo de negocio basado en APIs pagas de las grandes tecnológicas, al ofrecer un rendimiento comparable de forma completamente gratuita. Continúa leyendo «DeepSeek lanza modelos de IA que desafían a GPT-5 y Gemini, y los ofrece de forma gratuita»

China prohíbe las gráficas de IA de Nvidia: razones, contexto y consecuencias

El crecimiento de la inteligencia artificial en China ha sido tan acelerado como ambicioso. Siendo la segunda economía más grande del mundo, el país ha invertido con fuerza en el desarrollo de chips y modelos de IA propios. Un ejemplo reciente y llamativo es DeepSeek, una plataforma que compite directamente con ChatGPT y que, según sus desarrolladores, puede funcionar en un único chip, algo que ha despertado preocupación en los Estados Unidos.

Este tipo de innovaciones han incentivado a China a redoblar sus esfuerzos por reducir su dependencia de tecnología extranjera, sobre todo en lo que respecta al hardware necesario para entrenar modelos de IA. Por eso, en los últimos meses se ha visto un movimiento estratégico para fomentar el uso de chips nacionales y restringir las importaciones, siendo Nvidia uno de los principales afectados. Continúa leyendo «China prohíbe las gráficas de IA de Nvidia: razones, contexto y consecuencias»

OpenAI entre AMD y Nvidia: la carrera por los chips más potentes en plena escasez de cómputo

OpenAI ha anunciado alianzas con AMD y Nvidia en un momento crucial para el desarrollo de modelos de inteligencia artificial cada vez más potentes. Aunque estos acuerdos han generado grandes titulares, Brad Gerstner, fundador de Altimeter Capital, señala que por ahora se trata solo de anuncios y no de implementaciones concretas. En otras palabras, aún no hay chips funcionando en servidores ni mejoras tangibles derivadas de estos convenios.

Detrás del ruido mediático, Gerstner destaca lo esencial: «los mejores chips serán los que ganen«. Este comentario refleja una realidad cada vez más clara en el ecosistema de la inteligencia artificial: la carrera por la supremacía no se gana con comunicados de prensa, sino con resultados medibles en velocidad, eficiencia y disponibilidad de cómputo. Continúa leyendo «OpenAI entre AMD y Nvidia: la carrera por los chips más potentes en plena escasez de cómputo»

DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA

La startup china DeepSeek AI vuelve a dar que hablar con su nuevo modelo DeepSeek-V3.2-Exp, que promete reducir drásticamente los costos de inferencia en modelos de inteligencia artificial generativa. Según su propio blog corporativo, la nueva versión disminuye el coste por millón de tokens de 1,68 dólares a tan solo 42 centavos, lo que representa una caída del 75% en el consumo computacional necesario para generar predicciones.

Esta mejora no se basa en una revolución técnica radical, sino en una optimización continua de un principio conocido desde hace tiempo en el ámbito de la inteligencia artificial: la esparsidad. En términos sencillos, se trata de usar solo las partes más relevantes del modelo y los datos para hacer predicciones, dejando inactivos los componentes que no aportan valor directo a una tarea específica. Continúa leyendo «DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA»

DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia

La compañía china DeepSeek ha lanzado un modelo experimental llamado V3.2-exp, orientado a optimizar el rendimiento de operaciones en contextos largos, uno de los grandes desafíos técnicos en los modelos de lenguaje actuales. Esta versión introduce un sistema innovador llamado DeepSeek Sparse Attention, cuyo objetivo es minimizar la carga computacional y, con ello, reducir significativamente los costos de inferencia.

Cuando hablamos de inferencia, nos referimos al proceso por el cual un modelo ya entrenado genera resultados en base a una entrada dada. Este proceso, aunque menos costoso que el entrenamiento inicial, representa un gasto constante para quienes operan modelos en la nube o a través de API. Por eso, cualquier avance que reduzca el consumo de recursos en esta etapa tiene implicaciones económicas directas. Continúa leyendo «DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia»

DeepSeek y las sospechas sobre el uso de datos de Gemini: lo que sabemos hasta ahora

La empresa china DeepSeek ha dado que hablar en el mundo de la inteligencia artificial tras lanzar su modelo R1-0528, una actualización del modelo de razonamiento R1. Este modelo ha destacado por su capacidad para resolver problemas matemáticos y de programación, mostrando resultados competitivos en pruebas especializadas.

Sin embargo, el origen de los datos usados para entrenar este modelo está generando controversia. Continúa leyendo «DeepSeek y las sospechas sobre el uso de datos de Gemini: lo que sabemos hasta ahora»

DeepSeek R1: un modelo de IA potente, pero con filtros ideológicos evidentes

La empresa china de inteligencia artificial DeepSeek ha lanzado una versión mejorada de su modelo de razonamiento, conocida como R1-0528, que demuestra un rendimiento impresionante en áreas como programación, matemáticas y conocimiento general. Esta evolución técnica ha acercado a DeepSeek a estándares similares a los de modelos líderes como OpenAI o3, algo nada menor considerando la creciente competitividad en el sector de la IA. Continúa leyendo «DeepSeek R1: un modelo de IA potente, pero con filtros ideológicos evidentes»

DeepSeek presenta su modelo R1 reducido: potencia de razonamiento en una sola GPU

La carrera por crear modelos de inteligencia artificial cada vez más poderosos suele ir acompañada de una creciente demanda de recursos computacionales. Pero DeepSeek, un laboratorio de IA con sede en China, está apostando por una estrategia distinta: reducir el tamaño de sus modelos sin comprometer demasiado el rendimiento. Su último lanzamiento, DeepSeek-R1-0528-Qwen3-8B, representa un interesante equilibrio entre eficiencia y capacidad de razonamiento, capaz de funcionar con una única GPU. Continúa leyendo «DeepSeek presenta su modelo R1 reducido: potencia de razonamiento en una sola GPU»

China apuesta por DeepSeek para desarrollar sus cazas furtivos de nueva generación

China está dando un salto tecnológico significativo en el desarrollo de sus aviones de combate de última generación al integrar DeepSeek, un modelo de lenguaje de gran escala (LLM) de fabricación nacional, como parte del proceso de diseño y optimización de sus plataformas aéreas avanzadas como el J-35 y el J-50. Continúa leyendo «China apuesta por DeepSeek para desarrollar sus cazas furtivos de nueva generación»