El proyecto Euphonia de Google es una iniciativa de investigación en IA que busca dotar a sus sistemas de reconocimiento de voz con la capacidad de reconocer los enunciados de personas con dificultades en el habla.
Hoy, en el marco del Día Mundial de la Concienciación sobre la Accesibilidad, fue anunciada la ampliación de esta investigación, que inicialmente cubría sólo el inglés, a pruebas en francés, hindi, japonés y español.
Aprender a entender el lenguaje fundamentado, el lenguaje que ocurre en el contexto de, y se refiere a, el mundo en general, es un área popular de investigación en robótica e informática. La mayoría del trabajo actual en esta área todavía opera con datos textuales, y eso limita la capacidad de desplegar agentes en entornos realistas.
Un artículo reciente de investigación propone adquirir un lenguaje fundamentado directamente del habla del usuario final utilizando un número relativamente pequeño de puntos de datos en lugar de depender de representaciones textuales intermedias.
Google anda probando un nuevo sistema de reconocimiento de voz en dispositivos móviles, útil tanto para smartphones como para wearables y otros equipos, con mejoras tan grandes que hasta funciona sin Internet, es más acertado, resulta en promedio 7 veces más veloz y ocupa menos recursos técnicos que el software actual.
Por supuesto, aunque el «Ok, Google» tienen un nivel de reconocimiento enorme, no son pocas las veces que se ve limitado por el continuo requerimiento de una estable conexión a Internet o la combinación hardware/software del dispositivo. Claro, vale entender que los servidores de Google son los que posibilitan el reconocimiento en tiempo real y ese intercambio de información entre el equipo local y el remoto puede producir un cierto retraso. Continúa leyendo «Google prueba un sistema de reconocimiento de voz offline, 7 veces más veloz»
Apple sigue intentando mejorar su tecnología de reconocimiento de voz para hacer de Siri una asistente virtual perfecta, y da un paso más hacia dicho objetivo adquiriendo la compañía especialista en reconocimiento de voz Novauris Technologies.
Novauris Technologies, compañía fundada en 2002, fue liderada por el CEO Yoon Kim junto a los cofundadores Melvyn Hunt y John Bridle, y hasta el momento de la adquisición ha sido una compañía dedicada enteramente a las tecnologías de reconocimiento de voz y responsable de productos como DragonDictate o Dragon NaturallySpeaking. Ha sido responsable, también, de la tecnología ASR de reconocimiento de voz automático utilizada para acceder a información almacenada de forma local en nuestro dispositivo móvil o en servidores remotos.
Esta última característica es, probablemente, la que haya llamado la atención de Apple de cara a realizar la adquisición – el hecho de que operen en servidores y de forma local, además del hecho de poseer el motor en sí.
Según leemos en TechCrunch, fue adquirida por Apple el año pasado pese a que la noticia no haya salido a la luz hasta ahora, y en el sitio web de Novaris tampoco se ha publicado ninguna nota oficial sobre la adquisición.
Post-adquisición, Apple trabaja ahora en mejorar la tecnología que soporta a Siri.
¿Has actualizado ya a la versión estable de Google Chrome que acaba de salir? Si es así, tienes que saber que esta nueva versión ya dispone de soporte para la API Web Speech, de manera que las aplicaciones web que estén preparadas para ello, podrán recibir instrucciones vía voz por parte de los usuarios. Igual ahora mismo no hay muchas aplicaciones que incorporen el reconocimiento de voz, con lo que para ello Google ha lanzado una página demostrativa, la cual funciona con la nueva versión de Google Chrome.
En dicha demo, habrá que elegir el idioma deseado, habilitar el uso del micrófono del sistema por parte de Google Chrome, y comenzar la redacción a través de instrucciones de voz. Dicha redacción podrá ser usada para copiarse al portapapeles del sistema o formar parte del mensaje de correo electrónico que se quiera realizar.
Además de ello, específicamente para Windows, ahora viene desactivada la instalación silenciosa de extensiones, lo que añade más seguridad y fiabilidad, teniendo el usuario que aceptar aquellas extensiones que desea instalar, evitando así sorpresas que igual no son agradables.
Ya sólo te queda comprobar si ya se ha actualizado automáticamente tu versión de Google Chrome, o de lo contrario, actualizarlo manualmente. O si no usas Google Chrome, ahora es buen momento de darle una oportunidad.
Desde el blog de Evernote anuncian una actualización para la versión en Android con interesantes nuevas características.
La más notable es la posibilidad de crear notas mediante la tecnología de reconocimiento de voz, es decir que con solo dictarle a la aplicación podrá transcribir las notas. Esto tiene varios detalles interesantes, como por ejemplo, que veremos cómo se va escribiendo la nota a medida que vamos hablando en tiempo real, sin necesidad de terminar todo el dictado. Podemos escoger si guardar tanto la nota escrita junto con el audio o solamente la nota.
Desde el blog dicen que esta nueva característica solo estará disponibles en dispositivos que corran en Android Ice Cream Sandwich, aunque también se ha encontrado que se actualizado esta opción en otros dispositivos.
Tambien han presentado novedades en cuanto al widgets, que si deseas probarla tendrás que descargarla desde Google Play, donde promete muchas opciones de personalización y nuevas funcionalidades.
Nos presentan ahora Twitter Voice, una nueva aplicación Android que permite escribir Tweets mediante dictado por voz usando la tecnología de reconocimiento de voz de Google.
La idea surgió porque a veces quieres escribir sobre algo que te está pasando en este momento pero no tienes tiempo de entretenerte escribiendo en el teclado del teléfono, por falta de tiempo o porque estás haciendo alguna otra cosa. Con la aplicación es mas fácil, rápido y seguro avisar de retenciones en la AP-7, por ejemplo.
La aplicación se encuentra en Inglés y Castellano. Se encuentra traducida también al catalán, aunque la tecnología de reconocimiento de voz en dicho idioma aún no funciona muy bien.
Poder buscar en Internet usando un micrófono en lugar de un teclado es algo posible desde hace algunos meses, aunque el sistema solamente reconocía palabras en inglés. Y uso el pasado porque informan en TNW que ya están adaptando el motor de reconocimiento de voz en otros idiomas, algo que he podido comprobar personalmente usando la extensión para Google Chrome Voice Search. Al instalarla veréis un micrófono en los campos de búsqueda de cualquier sitio web, incluyendo el buscador de Google o el de wwwhatsnew.com, aquí arriba. Pulsad el micrófono y decid, en vuestro idioma, lo que queréis buscar. El sistema intentará reconocer la palabra y la mostrará en el campo correspondiente. Por supuesto la función no es perfecta, ni siquiera ha sido anunciado oficialmente que ya está disponible en otros idiomas, aunque el porcentaje de aciertos en mis pruebas ha sido bastante aceptable.
iSpeech ha lanzado una plataforma que nos permite programar sistemas de reconocimiento de voz y de transformación de texto a audio para iOS, Android y BlackBerry. El servicio es gratuito para los desarrolladores de aplicaciones móviles y está disponible para los programadores web que quieran usar el sistema usando la API. En la web el precio es de $.005 por palabra, pero en la versión móvil no hay coste. Una buena noticia para los que quieran integrar este tipo de sistemas en sus apps, algo que cada vez vemos de forma más frecuente, matando poco a poco a los viejos teclados. Link: iSpeech | Vía RWW