Etiqueta: reconocimiento de voz

Meta lanza Omnilingual ASR, el sistema de reconocimiento de voz más inclusivo y abierto hasta la fecha

Publicado el 12 noviembre, 2025

Meta ha dado un paso significativo en su estrategia de inteligencia artificial con el lanzamiento de Omnilingual ASR, un sistema de reconocimiento automático del habla que no solo soporta más de 1.600 idiomas de forma nativa, sino que puede adaptarse a miles más sin necesidad de reentrenamiento. Esta tecnología representa una evolución clave respecto a modelos anteriores como Whisper de OpenAI, que apenas cubre 99 idiomas.

La diferencia fundamental está en la arquitectura del sistema: Omnilingual ASR permite el uso del llamado aprendizaje sin disparo (zero-shot) con aprendizaje contextual, una técnica que permite al modelo transcribir nuevos idiomas con solo unos pocos ejemplos de audio y texto, sin pasar por un proceso completo de entrenamiento. Esto expande el potencial de cobertura hasta más de 5.400 idiomas, abarcando prácticamente todas las lenguas habladas con una escritura documentada. Continúa leyendo «Meta lanza Omnilingual ASR, el sistema de reconocimiento de voz más inclusivo y abierto hasta la fecha»

IBM lanza Granite 3.3: nuevos modelos de inteligencia artificial con voz y traducción automática

Publicado el 20 abril, 2025

por Natalia Polo

IBM acaba de dar un paso más en su estrategia de inteligencia artificial con el lanzamiento de Granite 3.3, una familia de modelos que combina texto y audio con una sorprendente precisión. Entre los anuncios más destacados está Granite Speech 3.3 8B, un modelo de reconocimiento y traducción de voz que promete competir con los grandes nombres del sector, y que ya está disponible de forma open source bajo licencia Apache 2.0. Continúa leyendo «IBM lanza Granite 3.3: nuevos modelos de inteligencia artificial con voz y traducción automática»

ElevenLabs lanza Scribe: para pasar de audio a texto, gratis hasta el 9 de abril

Publicado el 28 febrero, 2025

por Juan Diego Polo

La inteligencia artificial sigue avanzando en el campo del reconocimiento de voz, y ElevenLabs ha dado un gran paso con el lanzamiento de Scribe, su nuevo modelo de transcripción de voz a texto. La empresa asegura que esta tecnología supera a competidores consolidados como Otter, TurboScribe, Google, Fireflies y Deepgram, gracias a su precisión sin precedentes en 99 idiomas.

Continúa leyendo «ElevenLabs lanza Scribe: para pasar de audio a texto, gratis hasta el 9 de abril»

Las mejores agentes de Voz AI para 2025

Publicado el 20 enero, 2025

por Juan Diego Polo

En 2025, las agentes de voz AI han dejado de ser una curiosidad tecnológica para convertirse en herramientas esenciales en múltiples áreas. Estas aplicaciones no solo facilitan tareas cotidianas, sino que también revolucionan la forma en que interactuamos con la tecnología. Si alguna vez te has preguntado cómo puedes automatizar procesos, mejorar la productividad o incluso personalizar experiencias de usuario, sigue leyendo. Aquí te presentamos las mejores opciones disponibles este año.

Continúa leyendo «Las mejores agentes de Voz AI para 2025»

DeepL Voice: Una nueva frontera en traducción en tiempo real con DeepL

Publicado el 14 noviembre, 2024

por Juan Diego Polo

DeepL, la reconocida startup alemana de traducción, acaba de lanzar DeepL Voice, su nueva herramienta que permite traducir voz y vídeo en tiempo real. Este avance marca un hito en su evolución, pues hasta ahora la empresa había centrado sus esfuerzos en traducción de texto. Con esta nueva modalidad de traducción en vivo, DeepL busca revolucionar las interacciones multilingües en videoconferencias y reuniones presenciales.

Continúa leyendo «DeepL Voice: Una nueva frontera en traducción en tiempo real con DeepL»

Un collar inteligente que podría cambiar cómo nos comunicamos

Publicado el 8 septiembre, 2024

por Juan Diego Polo

Imagina un collar que te permita «hablar» sin necesidad de emitir un solo sonido. Suena a ciencia ficción, pero es una realidad gracias a un avance de la Universidad de Cambridge. Este collar inteligente usa un sensor de tensión ultrasensible basado en grafeno para capturar movimientos minúsculos de la garganta y traducirlos en palabras. Es como si el collar leyera tus labios y transmitiera lo que estás diciendo, sin que hagas ningún ruido.

Continúa leyendo «Un collar inteligente que podría cambiar cómo nos comunicamos»

Herramientas gratuitas para transcribir audio y video: una guía detallada

Publicado el 1 mayo, 2024

por Juan Diego Polo

La capacidad de transcribir contenido de audio y video es más esencial que nunca, tanto para crear archivos accesibles como para optimizar el SEO de nuestros contenidos en línea. A continuación, exploramos cinco herramientas gratuitas que facilitan esta tarea.

Continúa leyendo «Herramientas gratuitas para transcribir audio y video: una guía detallada»

SeamlessM4T, el nuevo proyecto de Meta para revolucionar las traducciones automáticas

Publicado el 28 agosto, 2023

por Juan Diego Polo

Si alguna vez has pensado que la traducción automática podría ser más fluida y precisa, Meta podría tener la respuesta. La compañía ha lanzado SeamlessM4T, un programa de traducción que promete cambiar las reglas del juego en el ámbito de la traducción automática. Continúa leyendo «SeamlessM4T, el nuevo proyecto de Meta para revolucionar las traducciones automáticas»

La Biblia ha sido usada para entrenar a la Inteligencia Artificial de Meta, para «dominar» más de 1000 idiomas

Publicado el 24 mayo, 2023

por Juan Diego Polo

La empresa Meta, anteriormente conocida como Facebook, ha adoptado un enfoque revolucionario para entrenar a sus modelos de inteligencia artificial (IA) en el reconocimiento y producción de voz para más de mil idiomas. Este audaz experimento ha utilizado nada menos que la Biblia como principal fuente de datos. La compañía tiene la esperanza de que estos algoritmos contribuyan a la preservación de lenguas que se encuentran en riesgo de desaparecer. Continúa leyendo «La Biblia ha sido usada para entrenar a la Inteligencia Artificial de Meta, para «dominar» más de 1000 idiomas»

Rescate Lingüístico a través de la Inteligencia Artificial: Más de 4000 idiomas en su radar

Publicado el 24 mayo, 2023

por Juan Diego Polo

La inteligencia artificial (IA) ha vuelto a sorprendernos. Su nuevo objetivo: luchar contra la desaparición de idiomas a través de un modelo revolucionario que promete cambiar el panorama actual de la tecnología de reconocimiento y generación de voz. Continúa leyendo «Rescate Lingüístico a través de la Inteligencia Artificial: Más de 4000 idiomas en su radar»