El sistema de reconocimiento de voz de Microsoft ya es casi perfecto

Imagen de depositphotos
Imagen de depositphotos

Microsoft ha anunciado un nuevo objetivo cumplido: una tasa de error del 5,1 por ciento en su sistema de reconocimiento de voz, el mismo porcentaje que el de los transcriptores humanos profesionales.

Mejoran así­ la tasa de 5,9% que tení­an anteriormente, alcanzada en octubre de 2016, y abren las puertas a nuevos sistemas de colaboración entre humanos y máquinas. Continúa leyendo «El sistema de reconocimiento de voz de Microsoft ya es casi perfecto»

Adobe lanza funciones analí­ticas de voz para diferentes asistentes digitales

AnaliticsCloud

Teniendo en cuenta el auge de los sistemas con soporte para la interacción por voz, como Siri de Apple Inc., por poner a uno de los más conocidos por el público en general, desde Adobe acaban de añadir capacidades de analí­ticas de voz a su suite Analytics Cloud, posibilitando a marcas, empresas, e incluso desarrolladores de apps en su caso, capturar y analizar datos de voz para conocer el rendimiento de las interacciones por voz con sus clientes para poder ofrecerles experiencias más personalizadas y mantener su fidelización.

Acorde a Adobe Analytics, en el último año ha crecido un 39% la venta de dispositivos con capacidades de interacción por voz. Ante este escenario, y la posibilidad de que los asistentes por voz lleguen a nuevos dispositivos en el futuro, como neveras o incluso coches, han estimado conveniente lanzar una solución que permita a las marcas que permitan las interacciones por voz por medio de asistentes e incluso de sistemas de altavoces inteligentes, realizar sus mediciones para adaptar sus estrategias a la hora de ofrecer experiencias personalizadas.
Continúa leyendo «Adobe lanza funciones analí­ticas de voz para diferentes asistentes digitales»

YouTube VR contará con salas compartidas con chat de voz integrada

YouTubeVR

Próximamente, la versión de YouTube para la Realidad Virtual contará con la opción de salas compartidas donde los usuarios, representados por avatares con forma de personas, podrán conversar en voz alta sobre los ví­deos inmersivos que están visualizando en cada sesión. A estas habitaciones podrán entrar grupos pequeños de usuarios aunque de momento no se sabe el procedimiento de acceso a las mismas, algo que podremos saber más adelante, cuando se produzca el lanzamiento.

El anuncio lo ha realizado hoy la compañí­a a través de su evento Google I/O 2017, del cual hoy es su segundo dí­a. El responsable de YouTube VR, Erin Teague, llama esta nueva opción como «experiencia de co-observación». Destaca que los usuarios tendrán el control sobre lo que están viendo y tendrán la posibilidad de ver lo que otros usuarios están viendo con la posibilidad de sincronizar el mismo ví­deo.
Continúa leyendo «YouTube VR contará con salas compartidas con chat de voz integrada»

lyrebird, un sistema que permitirá imitar la voz de cualquier persona

lyrebird

Si un sistema de Inteligencia Artificial adecuado escucha durante el suficiente tiempo a una persona, podrá imitar su voz para decir cualquier cosa, y en lyrebird lo demuestran.

Se trata de una plataforma que ofrecerá una API para que otros sistemas puedan acceder a su inteligencia. La idea es que puedan recibir 1 minuto de voz de cualquier persona para que Lyrebird aprenda a hablar como ella, de forma que después solo será necesario escribir el texto deseado y dejar que se genere el audio con la voz «falsa». Continúa leyendo «lyrebird, un sistema que permitirá imitar la voz de cualquier persona»

Speechify, fantástica aplicación para leer lo que vemos escrito

getspeechify

Existen muchas apps que se dedican a leer textos, transformando las letras en palabras con voces artificiales de diversos tipos, y hoy es el lanzamiento de una especialmente interesante: Speechify.

Se trata de una app para Mac y iOS que estará disponible de forma gratuita durante las próximas 24 horas en getspeechify.com, ya que aún no han realizado el lanzamiento oficial. Continúa leyendo «Speechify, fantástica aplicación para leer lo que vemos escrito»

Ordenadores que aprenden a hablar solos, sin ayuda del ser humano

computadoras

Una cosa es transformar un texto en voz usando un sistema artificial, otra muy diferente es poder decir que un ordenador ha aprendido a hablar, y hay varias empresas que están trabajando a diario para reducir la diferencia entre ambas situaciones.

Baidu es una de ellas, el gigante chino, el «Google asiático» que inauguró un laboratorio de investigaciones de inteligencia artificial en Silicon Valley en 2013 y que ha mostrado ahora el resultado de su trabajo: un sistema de inteligencia artificial que enseña a hablar a los ordenadores sin necesidad de que los seres humanos tengan que participar constantemente del proceso. Continúa leyendo «Ordenadores que aprenden a hablar solos, sin ayuda del ser humano»

4 apps para realizar grabaciones de voz con dispositivos Android

Imagen: Capturas oficiales de la app Grabadora de Voz
Imagen: Capturas oficiales de la app Grabadora de Voz

Ya sea para recabar declaraciones de personas, para hacer entrevistas a otras o directamente para realizar grabaciones de podcast en movilidad, os dejamos con cuatro aplicaciones gratuitas para dispositivos Android con la que podéis realizar grabaciones de voz:

Spreaker Studio: Se trata de una completí­sima aplicación donde además de grabar la voz propia o de otra persona, ideal para el mundo del periodismo, también dispone de otras funciones interesantes que lo convierte en un completo estudio de audio móvil, teniendo capacidades de retransmisiones en directo, posibilidad de mezclar voces con música, añadir efectos sonoros, y mucho más, donde además existe la posibilidad de compartir las creaciones a través de Twitter y Facebook.

Se trata, a todos los efectos, de una aplicación móvil enfocada especialmente al mundo podcast.
Continúa leyendo «4 apps para realizar grabaciones de voz con dispositivos Android»

Adobe está trabajando en un «Photoshop para audio»

audio

De la misma forma que podemos usar Photoshop para crear imágenes falsas, llegará ahora una herramienta de Adobe que permitirá la edición de audio con opciones que serí­an capaces de poner en la boca de las personas palabras que nunca dijeron.

Así­ lo ha indicado el desarrollador de Adobe Zeyu Jin, quien informó en la conferencia Adobe MAX conference, en San Diego, California, que el código del software que se está creando es Project VoCo. Continúa leyendo «Adobe está trabajando en un «Photoshop para audio»»

Microsoft celebra haber llegado a solo un 5,9% de error en su sistema de reconocimiento del habla

Imagen de cntk.ai, de Microsoft
Imagen de cntk.ai, de Microsoft

Hablar a una máquina y verificar que está entendiendo exactamente lo que decimos, independientemente de nuestro acento o de la velocidad con la que hablamos, es un sueño que hace algunos años parecí­a imposible de realizar.

Se han hecho muchos avances en este sentido, ya es posible dictar y obtener el texto prácticamente sin ningún problema en varias aplicaciones, tanto de Google, Microsoft o Apple como de otros pequeños proyectos tanto en web como en móviles, y este nuevo documento lo demuestra.
Continúa leyendo «Microsoft celebra haber llegado a solo un 5,9% de error en su sistema de reconocimiento del habla»

Baidu oficializa TalkType, el teclado virtual para Android que prioriza el dictado por voz

talktype

Baidu Research, división perteneciente al conocido buscador chino Baidu, ha oficializado a TalkType, su teclado virtual para dispositivos Android que busca diferenciarse del resto de opciones existentes por centrarse en el dictado por voz como función principal en lugar de dejarlo en una posición secundaria, como ocurre en muchas otras opciones de teclados virtuales de terceros para Android.

De este modo, los usuarios podrán ganar en velocidad a la hora de introducir sus frases simplemente dictándolas por voz en lugar de tener que escribirlas directamente en pantalla. Para ello tendrán que ir indicando sus frases, las cuales se irán convirtiendo automáticamente en textos y sobre los cuales también podrán incluir elementos tales como comas, puntos, signos de interrogación, signos de exclamación, entre otros.
Continúa leyendo «Baidu oficializa TalkType, el teclado virtual para Android que prioriza el dictado por voz»