Google TurboQuant comprime la memoria de la IA 6 veces sin perder precisión: internet ya lo llama «el Pied Piper de la vida real»
Google Research presenta TurboQuant, un algoritmo que comprime la caché KV de los modelos de lenguaje de 16 a 3 bits, reduciendo 6 veces el uso de memoria GPU y acelerando 8x la atención en Nvidia H100 sin perder precisión.