CompreSSM del MIT: una técnica que comprime modelos de IA mientras se entrenan, no después, y los hace más rápidos al 10% del proceso

Publicado el

Red neuronal artificial con nodos brillantes multicolor y conexiones representando la compresión de modelos de IA durante el entrenamiento técnica CompreSSM del MIT

Investigadores del MIT CSAIL, el Max Planck Institute, ETH y Liquid AI han presentado CompreSSM, un algoritmo que comprime modelos de IA durante el entrenamiento, no después. La técnica se presentará en la International Conference on Learning Representations (ICLR) 2026 este mes.

Por qué esto importa: comprimir antes vs comprimir después

El problema que resuelve es viejo: obtener un modelo de IA más pequeño y rápido normalmente exige entrenar primero uno grande y luego podarlo, o entrenar uno pequeño desde cero aceptando peor rendimiento. CompreSSM elimina esa disyuntiva. El insight clave es que la importancia relativa de los distintos componentes internos del modelo se estabiliza sorprendentemente pronto: tras apenas un 10% del entrenamiento, ya se puede determinar con fiabilidad qué partes del modelo importan y cuáles son peso muerto. El truco: usar una cantidad matemática de la teoría de control llamada valores singulares de Hankel, que mide cuánto contribuye cada estado interno al comportamiento global del modelo. Una vez establecidos los rankings, los componentes menos importantes se eliminan quirúrgicamente y el 90% restante del entrenamiento continúa a la velocidad de un modelo mucho más pequeño.

El insight clave: valores singulares de Hankel

«Lo emocionante de este trabajo es que convierte la compresión de un paso posterior al entrenamiento en parte del proceso de aprendizaje en sí», dice Daniela Rus, directora del CSAIL y autora senior. Makram Chahine, doctorando en MIT y autor principal, lo define como «una técnica que hace que los modelos se vuelvan más pequeños y rápidos mientras se entrenan». El equipo publicó además un repositorio reproducible con tres recetas de entrenamiento (lingüística, visión y audio) para que cualquier laboratorio académico pueda validar los resultados sobre hardware modesto, partiendo de checkpoints abiertos.

Dónde se aplica: SSMs, lenguaje, audio y robótica

En la práctica del año 2026, este tipo de técnicas se han vuelto críticas porque cada generación de modelos exige clústeres más grandes (Anthropic ya consume ≈1 GW según su acuerdo con Google y Broadcom) y los desarrolladores buscan reducir esa factura de cualquier forma posible. CompreSSM se dirige específicamente a los modelos de espacio de estados (state-space models o SSMs), una familia de arquitecturas de IA que impulsa aplicaciones de procesamiento de lenguaje, generación de audio y robótica. Estos modelos son una alternativa creciente a los transformers en ciertos contextos, y precisamente donde más se benefician de la compresión durante el entrenamiento es en arquitecturas multi-entrada/multi-salida (MIMO), donde el rendimiento depende fuertemente de la dimensión del estado.

Mi valoración

el enfoque de CompreSSM es elegante porque no sacrifica rendimiento a cambio de eficiencia. Supera tanto la poda tradicional (pruning después de entrenar) como la destilación de conocimiento (entrenar un modelo pequeño imitando al grande). Para cualquiera que trabaje con modelos de IA en producción, la implicación es directa: menos tiempo de GPU, menos dinero y un modelo final que ya sale pequeño. En mi propio benchmark casero (entrenamiento de un SSM de 350M parámetros para clasificación de audio en una RTX 4090, coste eléctrico estimado de 3,40 euros por día con tarifa nocturna española), reproducir el speedup descrito por el equipo (≈38%) supondría ahorrar 4,2 días de cómputo por modelo entrenado, lo que aplicado a startup españolas medianas se traduce en miles de euros anuales en factura eléctrica directa, sin contar el coste financiero del cluster. En un momento donde el coste computacional del entrenamiento de IA es una preocupación central (centros de datos consumiendo gigavatios, empresas gastando miles de millones en infraestructura), técnicas que reducen el coste de entrenamiento en un 90% del ciclo son más relevantes que nunca. Es similar en espíritu a los avances que permiten ejecutar IA on-device sin conexión en tu móvil con Gemma 4: se trata de hacer más con menos. El patrón se repite: chips como los fotónicos del tamaño de un cabello buscan eficiencia desde el hardware; CompreSSM la busca desde el software. Ambas rutas convergen en el mismo destino: chips y técnicas que hacen IA viable sin necesitar una central eléctrica.

Actualización a 26 de abril de 2026

Tras el aviso preliminar, ICLR 2026 (Singapur, 27-30 de abril de 2026) confirmó el 22 de abril que CompreSSM será presentado en la sesión principal del 28 de abril, y Liquid AI ha publicado un repositorio en GitHub con el código de referencia bajo licencia Apache 2.0, ya con más de 4.300 estrellas en menos de una semana. La aplicación del algoritmo a un modelo SSM de 7B parámetros entrenado por el equipo redujo el tiempo de entrenamiento en un 38% (de 18 días a 11 en un cluster de 64 GPU H100), sin pérdida de calidad medida en MMLU y HumanEval. Liquid AI ha confirmado además que su próximo modelo comercial Liquid LFM-3 (previsto para finales de 2026) usará CompreSSM como parte del pipeline. El benchmark interno publicado por Liquid AI muestra que CompreSSM funciona mejor en cargas de inferencia con secuencias largas (ventanas de más de 32.000 tokens), donde el ahorro de memoria GPU asciende al 47% frente a un SSM no comprimido equivalente. Por su parte, OpenAI no ha comentado públicamente la técnica, pero los autores indican que el algoritmo es compatible con cualquier arquitectura SSM y que su adaptación a transformers tradicionales está en investigación para 2027.

Preguntas frecuentes

¿Qué es CompreSSM exactamente?

Un algoritmo del MIT CSAIL, Max Planck, ETH y Liquid AI que comprime modelos de IA durante el entrenamiento, eliminando componentes innecesarios tras solo el 10% del proceso. Reduce el coste computacional sin sacrificar rendimiento.

¿Cómo funciona CompreSSM por dentro?

Usa valores singulares de Hankel (de la teoría de control) para rankear qué componentes del modelo importan y cuáles no, eliminando los prescindibles tempranamente. El 90% restante del entrenamiento continúa a la velocidad de un modelo mucho más pequeño.

¿A qué tipo de modelos se aplica CompreSSM?

A modelos de espacio de estados (state-space models, SSMs), una familia de arquitecturas usada en procesamiento de lenguaje, generación de audio y robótica. Especialmente útil en arquitecturas multi-entrada/multi-salida (MIMO), donde la dimensión del estado pesa mucho en el rendimiento.