Google TurboQuant comprime la memoria de la IA 6 veces sin perder precisión: internet ya lo llama «el Pied Piper de la vida real»

Publicado el

Google TurboQuant comprime la memoria de la IA 6 veces sin perder precisión: internet ya lo llama "el Pied Piper de la vida real"

Google Research ha publicado TurboQuant, un algoritmo de compresión que reduce la memoria de trabajo de los modelos de IA (la llamada caché de claves-valores o KV cache) de 16 bits a solo 3 bits por valor, con una reducción de memoria de al menos 6 veces y sin pérdida medible de precisión. En hardware Nvidia H100, la implementación a 4 bits logró una aceleración de hasta 8x en el cálculo de atención, la operación central de los modelos de lenguaje. Internet no tardó en bautizarlo como «el Pied Piper de la vida real», en referencia a la startup ficticia de Silicon Valley (HBO) que creó un algoritmo de compresión casi mágico.

La caché KV es uno de los cuellos de botella más caros de ejecutar modelos de lenguaje a escala. Cada token que procesa un LLM genera un par clave-valor que se almacena en la caché para no tener que recalcularlo. A medida que las ventanas de contexto crecen (100K, 200K tokens), la caché explota en tamaño y consume memoria GPU que podría usarse para servir más usuarios o ejecutar modelos más grandes.

TurboQuant resuelve el problema con un enfoque de dos etapas. Primero, PolarQuant convierte los vectores de datos de coordenadas cartesianas a coordenadas polares (radio + ángulos), lo que elimina la necesidad de almacenar constantes de normalización que otros métodos de cuantización necesitan y que añaden 1-2 bits extra por número. Segundo, QJL (Quantized Johnson-Lindenstrauss) reduce cada valor residual a un solo bit de signo (+1 o -1) con cero overhead de memoria. El resultado: compresión extrema sin las constantes extra que anulan los beneficios de otros métodos.

El impacto en los mercados fue inmediato: las acciones de SK Hynix cayeron un 6%, Samsung un 5% y Kioxia un 6% al día siguiente del anuncio, ante la perspectiva de que la demanda de memoria HBM para IA pueda moderarse. Analistas de Wells Fargo matizaron que «es evolutivo, no revolucionario» y que la demanda de memoria sigue siendo fuerte a largo plazo.

Mi valoración: TurboQuant no necesita entrenamiento, no necesita fine-tuning, no necesita codebooks específicos para cada dataset, y ya ha sido portado por la comunidad a MLX (Apple Silicon) y llama.cpp en menos de 24 horas. Eso dice mucho sobre su utilidad real. No va a hacer que los centros de datos desaparezcan, pero sí puede hacer que un modelo que antes necesitaba una GPU de 80GB quepa en una de 16GB. Para la IA en dispositivos locales (smartphones, portátiles, smartwatches), eso es transformador.

Preguntas frecuentes

¿Qué es TurboQuant? Un algoritmo de Google que comprime la memoria de trabajo de LLMs de 16 a 3 bits sin pérdida de precisión. Reduce el consumo de memoria al menos 6x. ¿Por qué cayeron las acciones de memoria? Los inversores temen que menos memoria sea necesaria para IA. Analistas matizan que el impacto a largo plazo es limitado. ¿Está disponible? Se presentará en ICLR 2026. Ya hay implementaciones comunitarias en MLX y llama.cpp. Se espera código open source en Q2 2026.