CompreSSM del MIT: una técnica que comprime modelos de IA mientras se entrenan, no después, y los hace más rápidos al 10% del proceso

Investigadores del MIT CSAIL, el Max Planck Institute, ETH y Liquid AI han presentado CompreSSM, un algoritmo que comprime modelos de IA durante el entrenamiento, no después. La técnica se presentará en la International Conference on Learning Representations (ICLR) 2026 este mes.

El problema que resuelve es viejo: obtener un modelo de IA más pequeño y rápido normalmente exige entrenar primero uno grande y luego podarlo, o entrenar uno pequeño desde cero aceptando peor rendimiento. CompreSSM elimina esa disyuntiva. El insight clave es que la importancia relativa de los distintos componentes internos del modelo se estabiliza sorprendentemente pronto: tras apenas un 10% del entrenamiento, ya se puede determinar con fiabilidad qué partes del modelo importan y cuáles son peso muerto. El truco: usar una cantidad matemática de la teoría de control llamada valores singulares de Hankel, que mide cuánto contribuye cada estado interno al comportamiento global del modelo. Una vez establecidos los rankings, los componentes menos importantes se eliminan quirúrgicamente y el 90% restante del entrenamiento continúa a la velocidad de un modelo mucho más pequeño.

«Lo emocionante de este trabajo es que convierte la compresión de un paso posterior al entrenamiento en parte del proceso de aprendizaje en sí», dice Daniela Rus, directora del CSAIL y autora senior. Makram Chahine, doctorando en MIT y autor principal, lo define como «una técnica que hace que los modelos se vuelvan más pequeños y rápidos mientras se entrenan».

CompreSSM se dirige específicamente a los modelos de espacio de estados (state-space models o SSMs), una familia de arquitecturas de IA que impulsa aplicaciones de procesamiento de lenguaje, generación de audio y robótica. Estos modelos son una alternativa creciente a los transformers en ciertos contextos, y precisamente donde más se benefician de la compresión durante el entrenamiento es en arquitecturas multi-entrada/multi-salida (MIMO), donde el rendimiento depende fuertemente de la dimensión del estado.

Mi valoración: el enfoque de CompreSSM es elegante porque no sacrifica rendimiento a cambio de eficiencia. Supera tanto la poda tradicional (pruning después de entrenar) como la destilación de conocimiento (entrenar un modelo pequeño imitando al grande). Para cualquiera que trabaje con modelos de IA en producción, la implicación es directa: menos tiempo de GPU, menos dinero y un modelo final que ya sale pequeño. En un momento donde el coste computacional del entrenamiento de IA es una preocupación central (centros de datos consumiendo gigavatios, empresas gastando miles de millones en infraestructura), técnicas que reducen el coste de entrenamiento en un 90% del ciclo son más relevantes que nunca. Es similar en espíritu a los avances que permiten ejecutar IA on-device sin conexión en tu móvil con Gemma 4: se trata de hacer más con menos. El patrón se repite: chips como los fotónicos del tamaño de un cabello buscan eficiencia desde el hardware; CompreSSM la busca desde el software. Ambas rutas convergen en el mismo destino: chips y técnicas que hacen IA viable sin necesitar una central eléctrica.

Preguntas frecuentes

¿Qué es CompreSSM? Un algoritmo del MIT CSAIL que comprime modelos de IA durante el entrenamiento, eliminando componentes innecesarios tras solo el 10% del proceso. ¿Cómo funciona? Usa valores singulares de Hankel (de la teoría de control) para rankear qué componentes del modelo importan y cuáles no, eliminando los prescindibles tempranamente. ¿A qué tipo de modelos se aplica? A modelos de espacio de estados (SSMs), una familia de arquitecturas usada en procesamiento de lenguaje, audio y robótica.