Google Research ha publicado TurboQuant, un algoritmo de compresión que reduce la memoria de trabajo de los modelos de IA (la llamada caché de claves-valores o KV cache) de 16 bits a solo 3 bits por valor, con una reducción de memoria de al menos 6 veces y sin pérdida medible de precisión. En hardware Nvidia H100, la implementación a 4 bits logró una aceleración de hasta 8x en el cálculo de atención, la operación central de los modelos de lenguaje. Internet no tardó en bautizarlo como «el Pied Piper de la vida real», en referencia a la startup ficticia de Silicon Valley (HBO) que creó un algoritmo de compresión casi mágico. Continúa leyendo «Google TurboQuant comprime la memoria de la IA 6 veces sin perder precisión: internet ya lo llama «el Pied Piper de la vida real»»