Los modelos de lenguaje grande (LLMs, por sus siglas en inglés), como ChatGPT o Gemini, han dejado de ser herramientas centradas solo en texto para convertirse en sistemas multimodales capaces de trabajar con imágenes, audio, vídeos y música. Sin embargo, integrar la voz humana en estos modelos no ha sido una tarea sencilla. A diferencia del texto, la voz es un canal de comunicación mucho más cargado de información: no solo contiene palabras, sino también emociones, acentos, tono e identidad.
La estrategia habitual para incorporar el habla a estos sistemas consiste en convertir el audio en tokens de audio, pequeñas unidades digitales comparables a las letras en un texto. Pero esos tokens, aunque funcionales, siguen siendo muy densos: cada segundo de audio contiene una gran cantidad de datos que dificulta su procesamiento por parte de los modelos. Esto ha limitado seriamente el avance de la comprensión de la voz por parte de la inteligencia artificial. Continúa leyendo «La inteligencia artificial comienza a comprender el habla con FocalCodec, un nuevo sistema de compresión de voz»