Cuando hablamos de modelos de lenguaje cada vez más capaces, casi siempre miramos el resultado final: un chatbot que razona mejor, un generador de código más fino, un asistente que entiende contexto largo. DeepSeek ha puesto el foco en otra parte del iceberg: el proceso de entrenamiento. Su propuesta, mHC (siglas de Manifold-Constrained Hyper-Connections), se plantea como una forma de entrenar grandes LLM con más estabilidad y con un coste incremental contenido, algo que no suena tan vistoso como un nuevo modelo, pero que suele ser lo que permite que la siguiente generación exista.
En términos cotidianos, es la diferencia entre comprar un coche más potente y mejorar la autopista por la que circula. Puedes tener un motor impresionante, pero si el asfalto está lleno de baches, el viaje se vuelve lento, caro y propenso a accidentes. DeepSeek dice haber encontrado una manera de “asfaltar” mejor la parte interna de la red neuronal para que el entrenamiento escale sin volverse frágil. Continúa leyendo «DeepSeek presenta mHC: la ingeniería (y la matemática) para entrenar LLM con menos fricción»