La inteligencia artificial comienza a comprender el habla con FocalCodec, un nuevo sistema de compresión de voz

Los modelos de lenguaje grande (LLMs, por sus siglas en inglés), como ChatGPT o Gemini, han dejado de ser herramientas centradas solo en texto para convertirse en sistemas multimodales capaces de trabajar con imágenes, audio, vídeos y música. Sin embargo, integrar la voz humana en estos modelos no ha sido una tarea sencilla. A diferencia del texto, la voz es un canal de comunicación mucho más cargado de información: no solo contiene palabras, sino también emociones, acentos, tono e identidad.

La estrategia habitual para incorporar el habla a estos sistemas consiste en convertir el audio en tokens de audio, pequeñas unidades digitales comparables a las letras en un texto. Pero esos tokens, aunque funcionales, siguen siendo muy densos: cada segundo de audio contiene una gran cantidad de datos que dificulta su procesamiento por parte de los modelos. Esto ha limitado seriamente el avance de la comprensión de la voz por parte de la inteligencia artificial. Continúa leyendo «La inteligencia artificial comienza a comprender el habla con FocalCodec, un nuevo sistema de compresión de voz»

OpenAI en el banquillo: el caso iyO vs io desata una tormenta legal en el mundo tech

El escenario tecnológico se ha visto sacudido por una disputa legal que ha captado la atención de toda la industria. La startup de computación por voz iyO ha presentado una demanda contra OpenAI, su nuevo proyecto de hardware llamado io, y figuras destacadas como Sam Altman y Jony Ive, alegando infracción de marca registrada, competencia desleal y uso indebido de información confidencial. Continúa leyendo «OpenAI en el banquillo: el caso iyO vs io desata una tormenta legal en el mundo tech»

Meta Spirit LM: La revolución de la inteligencia artificial en texto y voz

¿Te imaginas tener una conversación con un asistente virtual que no solo entiende lo que dices, sino que también responde con un tono amigable o hasta emocionado? Meta acaba de dar un paso enorme en esa dirección con Meta Spirit LM, su nuevo modelo de lenguaje multimodal que integra tanto texto como voz de una manera sorprendentemente natural. Pero espera, no estamos hablando de cualquier IA que convierta texto en voz robótica. Esta es capaz de captar emociones y expresarlas al interactuar contigo. Vamos a echarle un vistazo más de cerca.

Continúa leyendo «Meta Spirit LM: La revolución de la inteligencia artificial en texto y voz»

Cuándo es mejor usar Copilot que ChatGPT

Microsoft Copilot se ha posicionado como una herramienta alternativa a ChatGPT, aunque use el mismo «cerebro». Ofrece características distintas, esosí, que pueden ser cruciales dependiendo del uso específico que se le quiera dar. A continuación, exploraremos en detalle cuándo podría ser más conveniente optar por Copilot en lugar de ChatGPT.

Continúa leyendo «Cuándo es mejor usar Copilot que ChatGPT»

Microsoft presenta herramienta de creación de «deepfakes»

El evento Ignite 2023 estuvo lleno de sorpresas, y una de ellas llegó cuando Microsoft presentó una herramienta capaz de crear avatares fotorrealistas y animarlos para que digan cosas que la persona real no dijo. Este desarrollo, conocido como Azure AI Speech text-to-speech avatar, está disponible en vista pública y plantea preguntas éticas fundamentales.

Continúa leyendo «Microsoft presenta herramienta de creación de «deepfakes»»

Utilizan inteligencia artificial para crear audios con contenido de odio a partir de voces falsas de famosos

Si bien la inteligencia artificial ha proporcionado tanto a personas como empresas la posibilidad de optimizar sus tareas y aumentar su productividad, esta herramienta también ha estado siendo aprovechada de forma malintencionada.

Ya en el pasado vimos como los generadores de imágenes de IA podían ser usados para crear material pornográfico a partir de rostros famosos, pero la cosa va más allá.

Continúa leyendo «Utilizan inteligencia artificial para crear audios con contenido de odio a partir de voces falsas de famosos»

Marcas de agua en archivos de audio, para identificar voces artificiales

Hoy en día no es muy difícil detectar si una voz ha sido creada por Inteligencia Artificial o no, pero cada día es más difícil, por lo que hay que comenzar a pensar en cómo identificarlas de forma sencilla.

Es ahí donde tiene sentido Resemble AI, una nueva empresa de inteligencia artificial que propone una solución al creciente problema del audio falso. Continúa leyendo «Marcas de agua en archivos de audio, para identificar voces artificiales»

Uso de la inteligencia artificial para analizar la voz de pacientes después de una cirugía de laringe

Para el ser humano la voz no solo sirve como un medio para expresarse, sino también para detectar la presencia de patologías que puedan afectar las áreas del cuerpo que la producen, es decir, las cuerdas vocales.

En ese sentido, se dio a conocer que un grupo de investigadores de la Facultad de Informática de la Universidad Tecnológica de Kaunas (KTU IF), en conjunto con investigadores de la Universidad de Ciencias de la Salud de Lituania (LSMU), crearon un nuevo método basado en inteligencia artificial para realizar la supervisión del estado de la voz en personas que han sido sometidas a una operación de laringe.

Continúa leyendo «Uso de la inteligencia artificial para analizar la voz de pacientes después de una cirugía de laringe»

El cáncer, la depresión y otras enfermedades se podrían tratar analizando la voz, según estudio

Mediante la implementación de un innovador sistema de inteligencia artificial, pronto podría ser posible, a través del análisis de muestras de voz de un paciente, apoyar la elaboración de diagnósticos clínicos y la aplicación de tratamientos para enfermedades como el cáncer y la depresión, entre otras.

Esta iniciativa comenzó recientemente a materializarse gracias al trabajo colaborativo de 12 instituciones de investigación líderes del área, repartidas entre Estados Unidos y Canadá, con el propósito de ofrecer nuevas herramientas para la atención clínica.

Continúa leyendo «El cáncer, la depresión y otras enfermedades se podrían tratar analizando la voz, según estudio»