La inteligencia artificial comienza a comprender el habla con FocalCodec, un nuevo sistema de compresión de voz

Publicado el

Imagen-conceptual-que-representa-la-expansion-multilingue-del-modelo-ElevenLabs-V3-de-sintesis-de-voz-por-inteligencia-artificial.

Los modelos de lenguaje grande (LLMs, por sus siglas en inglés), como ChatGPT o Gemini, han dejado de ser herramientas centradas solo en texto para convertirse en sistemas multimodales capaces de trabajar con imágenes, audio, vídeos y música. Sin embargo, integrar la voz humana en estos modelos no ha sido una tarea sencilla. A diferencia del texto, la voz es un canal de comunicación mucho más cargado de información: no solo contiene palabras, sino también emociones, acentos, tono e identidad.

La estrategia habitual para incorporar el habla a estos sistemas consiste en convertir el audio en tokens de audio, pequeñas unidades digitales comparables a las letras en un texto. Pero esos tokens, aunque funcionales, siguen siendo muy densos: cada segundo de audio contiene una gran cantidad de datos que dificulta su procesamiento por parte de los modelos. Esto ha limitado seriamente el avance de la comprensión de la voz por parte de la inteligencia artificial.

El nacimiento de FocalCodec: cómo comprimir sin perder la esencia

Ante este reto, un grupo de investigadores liderados por Luca Della Libera, estudiante de doctorado en la Escuela de Ingeniería y Ciencias de la Computación Gina Cody de la Universidad Concordia, ha desarrollado FocalCodec, un sistema novedoso que permite comprimir el habla a tasas extremadamente bajas sin sacrificar la calidad perceptual ni el significado de lo dicho.

La clave de este enfoque radica en dos conceptos técnicos innovadores pero sencillos en su esencia. Por un lado, utiliza una técnica llamada cuantización esférica binaria, que convierte el audio en unidades más compactas y fáciles de manejar. Por otro, introduce la modulación focal, una forma de dirigir la atención del modelo hacia los fragmentos del habla que contienen mayor información semántica.

Para ilustrarlo con un ejemplo cotidiano: si un modelo de IA intentara comprender una conversación como si fuera a escuchar una llamada telefónica, FocalCodec actuaría como un filtro que elimina el ruido de fondo, reduce el tamaño del archivo y enfoca solo las partes cruciales del diálogo. Todo esto sin distorsionar el mensaje ni hacerlo sonar mecánico.

Resultados prometedores en pruebas humanas

Para validar la eficacia del sistema, los investigadores realizaron un estudio de escucha con 33 participantes. A estos se les presentaron audios originales y reconstruidos con FocalCodec, y la mayoría los calificó como casi indistinguibles. Este resultado sugiere que la compresión de voz lograda no afecta la naturalidad del habla ni su comprensión.

Esto representa un gran paso en el camino hacia modelos más accesibles y eficientes. Al reducir la cantidad de datos necesarios para representar el habla sin perder calidad, se allana el camino para integrar voz en aplicaciones donde antes era inviable por limitaciones de almacenamiento, procesamiento o conectividad.

Implicaciones para el futuro de la IA

Uno de los aspectos más relevantes de este trabajo es su potencial para mejorar los modelos de lenguaje multimodales. Tal como señaló Mirco Ravanelli, profesor asistente y supervisor de Della Libera, este enfoque podría facilitar la creación de sistemas que entiendan el sonido con la misma soltura con la que hoy procesan el texto. Esto no solo significa mejores asistentes virtuales, sino también herramientas más inclusivas y capaces de interpretar entonaciones, emociones y contextos conversacionales.

FocalCodec también podría tener impacto en otras áreas, como la compresión de voz para comunicaciones de baja latencia, la generación de voz sintética o los sistemas de traducción automática que trabajan directamente con audio. Al ofrecer una representación del habla más ligera y centrada en el significado, se amplían las posibilidades de desarrollo en campos donde el procesamiento de voz era hasta ahora un cuello de botella.

Reconocimiento y colaboración internacional

El impacto de este trabajo ha sido reconocido por la comunidad científica: el estudio ha sido aceptado en la prestigiosa conferencia NeurIPS 2025, uno de los encuentros más importantes en el ámbito de la inteligencia artificial y el aprendizaje automático. Además, el proyecto es fruto de la colaboración entre la Universidad Concordia y el Instituto de Inteligencia Artificial de Quebec (Mila), con contribuciones de investigadores como Francesco Paissan, de la Universidad de Trento, y Cem Subakan, profesor afiliado a Concordia.

Este tipo de cooperación demuestra que la investigación en IA avanza más rápido cuando se rompen las barreras institucionales y se suman talentos de distintos países y niveles académicos.

Un nuevo paso hacia la comprensión real del lenguaje hablado

Lo que propone FocalCodec es algo más que una mejora técnica: representa una evolución en la forma en que las máquinas pueden comprender el lenguaje hablado, no solo transcribirlo. Al enfocarse en el contenido significativo del habla y hacerlo accesible para modelos grandes, este sistema allana el camino hacia una inteligencia artificial que no solo escuche, sino que también entienda.