DeepSeek presenta mHC: la ingeniería (y la matemática) para entrenar LLM con menos fricción

Publicado el

deepseek

Cuando hablamos de modelos de lenguaje cada vez más capaces, casi siempre miramos el resultado final: un chatbot que razona mejor, un generador de código más fino, un asistente que entiende contexto largo. DeepSeek ha puesto el foco en otra parte del iceberg: el proceso de entrenamiento. Su propuesta, mHC (siglas de Manifold-Constrained Hyper-Connections), se plantea como una forma de entrenar grandes LLM con más estabilidad y con un coste incremental contenido, algo que no suena tan vistoso como un nuevo modelo, pero que suele ser lo que permite que la siguiente generación exista.

En términos cotidianos, es la diferencia entre comprar un coche más potente y mejorar la autopista por la que circula. Puedes tener un motor impresionante, pero si el asfalto está lleno de baches, el viaje se vuelve lento, caro y propenso a accidentes. DeepSeek dice haber encontrado una manera de “asfaltar” mejor la parte interna de la red neuronal para que el entrenamiento escale sin volverse frágil.

De ResNet al problema clásico: que la señal no se descontrole

Para entender por qué esto importa, conviene recordar una idea que lleva años sosteniendo la arquitectura moderna: las conexiones residuales popularizadas por ResNet. La metáfora útil aquí es un pasamanos en una escalera larga. En redes profundas, el aprendizaje puede tambalearse porque la señal se va debilitando o se vuelve caótica a medida que atraviesa muchas capas. Las residuales permiten que una parte de la información “pase” casi sin tocarla, dando estabilidad al flujo y ayudando a que el entrenamiento no se derrumbe.

El giro de los últimos años es que muchos equipos han intentado enriquecer ese “pasamanos”. Si una conexión residual sencilla ayuda, ¿por qué no crear varias corrientes paralelas y permitir que se mezclen? La intuición es razonable: más caminos internos pueden dar más capacidad expresiva, como si en lugar de un único carril rápido tuvieras varios carriles que se comunican.

Hyper-Connections: más carriles… y un nuevo riesgo

Ahí entra Hyper-Connections, una línea de trabajo impulsada por ByteDance que propone ensanchar la “corriente residual” y complicar su conectividad para mejorar rendimiento. La promesa es atractiva: aumentar la riqueza del intercambio interno sin que el coste de cómputo (medido de forma simplificada en FLOPs) se dispare.

El problema es que en IA no basta con tener más caminos; también hay que controlar el tráfico. Al introducir matrices de mezcla aprendibles entre varias corrientes, el sistema puede perder una propiedad muy valiosa de la residual clásica: su identity mapping (ese paso “directo” que conserva la señal). Si esa conservación se rompe a lo largo de muchas capas, aparece el peor escenario: amplificación o atenuación descontrolada de la señal, lo que se traduce en inestabilidad durante entrenamientos grandes.

DeepSeek parte de ese diagnóstico: Hyper-Connections aporta capacidad, pero puede volverse difícil de escalar en la práctica cuando el modelo crece y el entrenamiento se vuelve largo.

Qué hace distinto a mHC: imponer “reglas de conservación” a la mezcla

La idea central de mHC es imponer una restricción matemática a cómo se mezclan esas corrientes residuales. Dicho sin rodeos, DeepSeek quiere que la mezcla se comporte como un reparto “justo” que no crea ni destruye señal de forma arbitraria.

El paper explica que mHC proyecta ciertas matrices de mezcla hacia un espacio muy concreto: el de las matrices doblemente estocásticas, asociado al Birkhoff polytope. En la práctica, esto obliga a que las filas y columnas sumen 1, lo que convierte la operación en una especie de combinación convexa: se redistribuye la información entre corrientes, pero se evita que una corriente “engorde” sin control mientras otra se queda en los huesos.

La metáfora doméstica aquí funciona bien: imagina que estás repartiendo una jarra de agua entre varios vasos. Hyper-Connections sería repartir sin medidor; puedes terminar con un vaso rebosando y otro casi vacío. mHC pone un medidor que obliga a que el reparto conserve el total y mantenga un equilibrio razonable. El objetivo es que el entrenamiento no tenga “picos” de señal ni se quede sin energía a mitad de camino.

Para lograr esa proyección, el método usa el algoritmo Sinkhorn-Knopp, que normaliza iterativamente la matriz hasta acercarla a esa estructura doblemente estocástica. Es una forma técnica de convertir una mezcla potencialmente caprichosa en una mezcla con barandillas.

Eficiencia: el enemigo silencioso es la memoria, no solo el cálculo

En el discurso popular sobre IA, el coste se reduce a “cuántas operaciones” hace el modelo. En entrenamiento real, el cuello de botella muchas veces es mover datos: lecturas y escrituras en memoria, sincronizaciones entre GPUs, latencias que no salen en una cuenta simple de FLOPs. DeepSeek lo trata como un problema de ingeniería, no solo de teoría.

En mHC se describen optimizaciones a nivel de infraestructura, como kernel fusion para reducir accesos repetidos a memoria, estrategias de precisión mixta para mantener velocidad sin perder estabilidad numérica, y recomputación selectiva para contener huella de memoria durante el backprop. También se habla de solapar comunicaciones dentro de un esquema de planificación llamado DualPipe, buscando que las GPUs pasen menos tiempo “esperando” a que lleguen datos.

El dato que más llama la atención, por lo concreto, es que en entrenamiento interno mHC con una tasa de expansión n=4 introduce un sobrecoste de tiempo del 6,7%. No es “gratis”, pero sí se presenta como un precio pequeño si el resultado es más estabilidad y mejores métricas.

Qué muestran los experimentos: 27B parámetros como banco de pruebas principal

DeepSeek ha validado el enfoque en preentrenamiento y lo ha hecho con modelos de tamaño relevante. En el paper se describe una comparación entre un baseline, Hyper-Connections y mHC, usando una arquitectura MoE inspirada en DeepSeek-V3, con n=4 como configuración para HC y mHC. El foco principal está en un modelo de 27B parámetros, entrenado con un tamaño de dataset proporcional a sus parámetros.

En benchmarks de evaluación, mHC supera al baseline y, en la mayoría de tareas, mejora también a Hyper-Connections. El texto destaca, por ejemplo, ganancias adicionales en pruebas asociadas a razonamiento como BBH y DROP frente a HC. En paralelo, se presentan curvas de escalado que recorren configuraciones desde 3B y 9B hasta 27B parámetros, con una lectura clara: el método pretende sostener su comportamiento cuando el modelo crece, que es el punto donde muchas ideas prometedoras se rompen.

En el apartado de estabilidad, las figuras se usan para mostrar cómo la dinámica de propagación mejora en mHC en comparación con HC dentro del modelo de 27B, que es justo el dolor que venían a tratar.

Por qué se interpreta como un indicio del próximo gran modelo de DeepSeek

El contexto mediático añade otra capa. Varias publicaciones han señalado que este tipo de investigación suele funcionar como antesala de lanzamientos importantes: primero aparece el “cómo lo entrenamos”, luego llega el modelo que se apoya en ese “cómo”. Computerworld recoge la lectura de que mHC podría anticipar el siguiente gran lanzamiento tras DeepSeek-R1, y la prensa económica ha citado a analistas que interpretan el paper como señal de confianza técnica y de capacidad para rediseñar la pila de entrenamiento de extremo a extremo.

Aquí conviene mantener una mirada fría. Un paper no confirma por sí solo un modelo nuevo ni sus fechas. Lo que sí sugiere es una dirección: DeepSeek está intentando exprimir mejoras no solo por tamaño o datos, sino por diseño topológico de la arquitectura y por eficiencia práctica en infraestructura. Si mHC se integra en un próximo modelo, el usuario final quizá no vea “mHC” escrito en ninguna parte, pero sí notaría el efecto si permite entrenar más grande, más estable o con un coste más asumible.