DeepFace de Facebook muestra una precisión casi humana reconociendo rostros

facebook

Facebook vuelve a sorprendernos, esta vez con una noticia relacionada con las tecnologí­as de reconocimiento facial. El nombre del proyecto es DeepFace, y en él se utiliza un algoritmo que es capaz de identificar un rostro concreto en medio de una multitud con un 97,25% de precisión – casi igual que la precisión que mostrarí­a un humano.

Leemos sobre el proyecto en TC, y allí­ nos explican que los ingenieros de Facebook han trabajado muy duro para llegar a perfeccionar este sistema. Ya pueden construir modelos 3D de rostros a partir de una fotografí­a, modelos que pueden rotarse para realizar la captura del rostro desde distintos ángulos – y modelos clave para buscar una coincidencia entre la figura 3D y una cara real.

Lo cierto es que antiguamente era muy difí­cil reconocer un rostro en concreto a partir de una fotografí­a, ya que un simple cambio de ángulo podrí­a hacer imposible el proceso de reconocimiento. Habiendo sobrepasado ya esta limitación, ahora toca entrenar este algoritmo en distintos rostros y situaciones, pero de momento apunta buenas maneras: ha reconocido unas 4.000 identidades entre una base de datos de unos 4 millones de imágenes.

Da un poco de miedo pensar que Facebook puede reconocer en cada fotografí­a publicada quiénes son nuestros amigos y con quién nos hacemos fotos, pero por ahora la investigación se está realizando con fines académicos y no se ha hablado de implementarlo en la red social – al menos no inmediatamente.

Wit.ai, plataforma y API para integrar reconocimiento de voz en nuestros proyectos

wit.ai

Empecemos por repasar un poco la trayectoria de Nuance, gigante de las tecnologí­as basadas en el reconocimiento de voz, que en estos últimos años ha adquirido compañí­as como VirtuOZ o Vlingo y que se ha convertido en una de las referencias a tener en cuenta en este sector, especialmente cuando tratemos con cualquier cosa que tenga que ver con integración de reconocimiento de lenguaje e interfaces de lenguaje natural – tanto en hardware como en software.

Ahora leemos en TC sobre el nuevo proyecto lanzado por Alexandre Lebrun -previo CEO y fundador de VirtuOZ-, llamado Wit.ai y que consiste en una plataforma y una API que permitirán que cualquier desarrollador pueda incorporar la tecnologí­a de reconocimiento de voz de Nuance en su proyecto, app, pieza de hardware, web, etcétera.

El servicio ya llevaba dos meses en fase beta, pero aún así­ en esa temporada ha llegado a registrar más de 2.000 desarrolladores interesados en su plataforma y cuenta ya con grandes clientes en el mundo de la automoción, el hardware, la televisión o diversas startups basadas en la automatización de tareas del hogar.

El mismo Lebrun declara que la plataforma va a ser una revolución en la industria de la voz y el lenguaje, y que uno de sus objetivos es intentar romper con la manera en la que la tecnologí­a de reconocimiento de voz se ha desarrollado estos últimos años.

Os dejamos con un claro ejemplo de cómo funciona Wit.ai:

Blippar lleva su tecnologí­a de reconocimiento de imágenes y realidad aumentada a Google Glass

Blippar

La edición del MWC de este año no sólo se está hablando de telefoní­a móvil, ya que los dispositivos wearables también tienen su parte de protagonismo. En este sentido, uno de los dispositivos wearables más conocidos son las gafas de realidad aumentada de Google, las Google Glass, las cuales están aumentado sus posibilidades de uso gracias a las tecnologí­as y aplicaciones de terceros, entre los que se encuentra Blippar, especializada en el rápido reconocimiento de imágenes y en la realidad aumentada en la publicidad móvil.

Hoy salta de los dispositivos móviles, en los que está presente, a las gafas de realidad aumentada de Google mediante la presentación de su tecnologí­a de reconocimiento de imágenes que ha implementado para este dispositivo, afirmando ser la primera tecnologí­a de reconocimiento de imágenes para el mismo.

Su CEO, Ambarish Mitra, ha realizado una demostración en el marco del MWC en Barcelona, mostrando como su tecnologí­a puede reconocer rápidamente imágenes, productos y rostros de personas a través de las propias gafas de Google. Esta tecnologí­a permitirá explorar e interactuar con la publicidad mediante la realidad aumentada y el reconocimiento de imágenes, de manera que los usuarios podrán interactuar con la publicidad de marcas concretas a través de las propias gafas. Añade que las Google Glass actuales son comparables a los dispositivos móviles a principios de los noventa, y ellos se anticiparán para poder estar disponibles en su primer año de lanzamiento, lo que supone será una buena oportunidad de negocio para que puedan ir desarrollándose en el tiempo, según recoge TC.

De momento es sólo una demostración de las posibilidad que la tecnologí­a Blippar puede ofrecer en las Google Glass, aunque cabe la posibilidad de que esta pueda estar disponible para los propietarios que adquieran sus Google Glass.

La aplicación de traducción de Baidu ya permite reconocer objetos y traducir textos desde imágenes

Baidu

Lo más probable es que a la mayorí­a de los usuarios del mundo no necesitemos instalarnos y hacer uso de la aplicación móvil de traducción de Baidu, ya que contamos con otras aplicaciones móviles que cubren nuestras necesidades sobradamente. Pero para aquellos que si puedan necesitarlo, y según leemos en TNW, la aplicación de traducción de Baidu ya permite el reconocimiento de objetos y la traducción de los textos dentro de las imágenes.

La función de reconocimiento de objetos acaba de llegar a la plataforma iOS el pasado fin de semana mediante una nueva actualización aunque ya estaba disponible desde el mes pasado en la plataforma Android. Básicamente, dentro de la aplicación hay que presionar el botón de foto y luego el de objeto para posteriormente realizar con el dedo un cí­rculo en la imagen que abarque el propio objeto a reconocer. Una vez presionado el botón de verificación, la aplicación mostrará en pantalla el nombre del objeto tanto en chino como su traducción al inglés. El citado medio realizó unas pruebas observando que algunos resultados no se correspondí­an con los verdaderos objetos fotografiados, por lo que es probable que la propia compañí­a afine su sistema de reconocimiento, recientemente estrenado.

La función foto también permite traducir los textos disponibles a través de las imágenes, de manera que tan sólo hay que señalar los textos dentro de las imágenes para que la aplicación se encargue de realizar las traducciones. Evidentemente, cuanto más claros son los textos capturados en condiciones óptimas, mejor funcionan las traducciones.

La función de traducción de textos de la propia aplicación es lo que mejor funciona de la misma, aunque sigue limitada al soporte de 10 idiomas, lejos de los 70 idiomas soportados por la aplicación de traducción de Google.

En cualquier caso, se trata de una opción a tener en cuenta por aquellos usuarios que se encuentren en China o que deban emplear su idioma según sus circunstancias.

Chrome 33 Beta incorpora una serie de nuevas caracterí­sticas para desarrolladores web

Chrome

Desde esta semana, ya contamos con las versiones estables de Chrome 32 para Windows, Linux, Mac y para Android, y desde hoy ya tenemos con nosotros la versión beta de Chrome 33 para los sistemas indicados, la cual trae una serie de nuevas caracterí­sticas enfocadas a los propios desarrolladores, según anuncia Google en Chromium blog, empezando por la inclusión de los elementos personalizados, donde según el anuncio, los desarrolladores web puede definir nuevos tipos de elementos HTML a utilizar en sus aplicaciones web. Esta nueva caracterí­stica da mayor modularidad a la plataforma web, permitiendo a los desarrolladores crear aplicaciones web mucho más limpias.

Otra de las nuevas caracterí­sticas se encuentra en la API Web Speech, permitiendo con ella que los desarrolladores web puedan incorporar funciones de reconocimiento de voz y sí­ntesis en sus sitios web. Si bien, el reconocimiento de voz ya se incorporó el año pasado, con el lanzamiento de hoy se permite la sí­ntesis de voz, de manera que los desarrolladores web podrí­an permitir, según el ejemplo, que sus aplicaciones escuchen los dictados de los usuarios y sean reproducidos ví­a voz en un idioma diferente.

En lo que respecta a NPAPI, una arquitectura de plugin multiplataforma empleado en múltiples navegadores web, dejará de tener soporte alguno en Mac y Windows para final de año, mientras que ya no tendrá soporte desde el mes de Abril para Linux.

En el propio anuncio también resalta otros cambios de esta versión, como la disponibilidad de la API requestAutocomplete para los pagos de forma fácil en Internet en su versión para Mac, o la optimización de la descarga de las fuentes web, entre otros. A final de dicho anuncio invita a los usuarios a visitar chromestatus.com para obtener una visión completa de las caracterí­sticas para los desarrolladores de Chrome.

Truly.am nos permite verificar nuestros nuevos contactos mediante el reconocimiento facial

Truly.am

Hay casos en los que al comunicarnos con otros usuarios por primera vez a través de Internet, éstos no sean realmente quienes vemos a través de sus fotografí­as. Así­ que, al menos para las conversaciones más importantes, tenemos una nueva herramienta que verificará por nosotros la verdadera identidad de los mismos, de manera que nos indique que quienes están en las fotografí­as son realmente ellos.

La herramienta se llama Truly.am, de uso completamente gratuito y sin necesidad de registro, creado por Agustí­n Haller y Dayana Jabif, de Uruguay, y que ha sido presentada hoy en el TechCrunch Europe hackathon, como así­ informa TechCrunch.

Su funcionamiento es el siguiente, alguien no conocido enví­a una imagen al usuario con el que va a establecer contacto, éste entonces enví­a la imagen al servicio Truly.am, ya sea arrastrando la propia imagen o indicando la URL donde está alojada la imagen en Internet, aportando además la dirección de correo electrónico de esa persona. Entonces esa persona recibirá un mensaje de correo electrónico que le instará a verificar su perfil en base a una serie de fotografí­as que realizará mediante su cámara web. Una vez que el servicio ya tenga las imágenes realizadas, su algoritmo realizará las correspondientes verificaciones mediante la comparación con la imagen original. Después de ello, Truly.am indicará al usuario si la imagen corresponde a la propia persona, aportando también los resultados.

Truly.am utiliza herramientas interesantes en HTML5 como el protocolo WebRTC, que muchas veces hemos hablado aquí­, ademí­ como la API de reconocimiento facial de SkyBiometry. Debido a la importancia de averiguar quien está detrás de cada perfil, sus desarrolladores tienen planteando llevarla a servicios profesionales como LinkedIn, Xing, u otros servicios.

Donde más problemas podemos tener con la identidad de los nuevos usuarios puede ser en Facebook o en otras plataformas sociales populares, con lo que ya podemos darle una oportunidad para probar que con quienes estemos contactando son realmente quienes dicen ser, aunque pueda generarles algunas molestias.

Enlace: Truly.am

Las entradas de escritura manual llegan a GMail y Google Docs

Hardwriting

Google acaba de anunciar de la llegada de la entrada de datos a través de la escritura manual en sus servicios de Google Docs y GMail, enfocado en aquellos casos en los que la entrada de datos a través del teclado es menos ideal que escribirlos de puño y letra, pudiendo para ello utilizar tanto el propio ratón, trackback, o cualquier otro soporte electrónico que permita realizar escrituras manuales. Con ello, persigue romper las barreras idiomáticas, facilitando el uso de sus servicios a las personas de todo el mundo.

A tener en cuenta que la escritura manual está soportado sólo para 20 idiomas en Google Docs así­ como para 50 idiomas en GMail, permitiendo así­ a los usuarios de los idiomas soportados escribir uno o varios caracteres de una vez en el panel para verlos dentro de sus mensajes o documentos. Para identificarlos, al lado de ellos debe existir el icono del lápiz en lugar del icono del teclado.

Para usar esta caracterí­stica en GMail, los usuarios tan sólo deberán habilitar Input Tools o Herramientas de Entradas, que encontrarán dentro de las opciones de configuración al principio de la pestaña General, pudiendo ya allí­ indicar los idiomas de entrada que desean usar en sus cuentas. Ya tan sólo tendrán que emplear el desplegable que encontrarán junto con el botón de configuración, para acceder a los idiomas de entrada indicados en la configuración. Los usuarios que tengan alguna dificultad, encontrarán los pasos a seguir a través de esta página.

En el caso de Google Docs, los usuarios tendrán que seguir los pasos que se describen en esta página para habilitar la entrada de datos mediante escritura manual.

De este modo, los usuarios de GMail y Google Docs que precisen de introducir los caracteres mediante la escritura manual, ya pueden optar a ello si así­ lo desean.

Shot & Shop – Captura con la cámara la prenda que quieres comprar, y encuéntrala

zapato

La idea de Shot & Shop es fantástica, principalmente para los que ven en revistas zapatos, bolsos y demás prendas de ropa, que irán incluyendo en el futuro, y quieren saber dónde pueden comprarlas.

Nos la presentan como una aplicación para iPhone, con Android en camino (como viene siendo habitual), en español y ya en iTunes, que se presentó oficialmente ayer en Madrid.

Usa un buscador visual capaz de reconocer prendas y objetos que estén a la venta. Podemos fotografiar tanto una imagen de una revista como un zapato de una amiga que lo esté vistiendo. Si está a la venta, SHOT & SHOP la encuentra, y además ofrece otros resultados parecidos. Es posible filtrar por color, textura, forma y otras variables que ayuden a encontrar exactamente lo que estamos buscando.

Dispone de una aplicación que permite encontrar complementos que combinen con lo que llevamos puesto. De esta forma, podemos subir una foto de la prenda que queremos combinar, y decide la categorí­a del resultado para comenzar a navegar entre zapatos y bolsos.

Si tenemos claro el tipo de zapato que deseamos, pero no encontramos ninguna foto del mismo, es posible dibujarlo y esperar a que el sistema de reconocimiento de formas haga su trabajo, permitiendo obtener resultados reales en las tiendas de cada marca.

Sobre el sistema de reconocimiento que utilizan, nos comentan:

La tecnologí­a que hay detrás de SHOT & SHOP se basa en algoritmos propios de reconocimiento de imágenes y visión artificial, en proceso de patente. Se trata pues de una tecnologí­a única y diferencial, donde una de sus cualidades más revolucionarias es que no necesita aprendizaje de lo que busca, es decir, reconoce los objetos directamente aunque no los conozca o haya visto con anterioridad.

Por detrás del proyecto se encuentra Sira Pérez de la Coba, Ingeniero de Telecomunicaciones y experta en visión artificial y análisis estadí­stico, con una experiencia de más de doce años en proyectos de reconocimiento de objetos y personas para Defensa y Seguridad en empresas como Indra o Telvent.

Sin duda, un proyecto bastante original.

Yahoo! compra empresa especializada en reconocimiento de imágenes

iqCon el objetivo de transformar Flickr en una base de datos de fotografí­as con capacidad de reconocer los objetos que en ellas se encuentran, Yahoo ha comprado una empresa de reconocimiento de imágenes.

Se trata de IQ Engines (iqengines.com), compañí­a que dejará de trabajar en su proyecto para dedicarse a mejorar Flickr, tal y como comentan en el comunicado que podemos ver en su página principal.

Yahoo se ha negado a revelar los términos del acuerdo, aunque no debe ser poco el dinero desembolsado para adquirir una empresa que consiguió en 2010 una inversión de 1 millón de dólares para crear una API que permita a sus clientes etiquetar y registrar visualmente las imágenes (API que dejará de funcionar en 30 dí­as). Comentan en TC que más tarde consiguieron 3,8 millones más de otras fuentes, por lo que estamos hablando de un proyecto realmente sólido.

Estaban trabajando en un sistema que clasifique de forma automática las fotos de nuestros móviles (aquí­ tenéis un ví­deo demostrándolo), identificando lugares y objetos para tener categorí­as automáticas después de la detección del contenido de cada imagen.

La identificación de personas, objetos y lugares en las imágenes no es algo sencillo de realizar, aunque parece que en IQ Engines tení­an muchos problemas resueltos sobre este tema. Parece que Flicker continuará siendo el plato fuerte de Yahoo!, esperemos que las novedades en ese sentido no tarden demasiado.

Paypal está probando un sistema para pagar al reconocer nuestro rostro

Si pagar usando un email y una contraseña os parece algo arriesgado en un mundo donde la privacidad de la información está pintada de colores alternativos, y no os fiáis después de las noticias constantes del tipo «Roban millones de contraseñas de la plataforma X», bienvenidos al club.

La buena noticia es que están trabajando en métodos alternativos para poder pagar de forma segura, con herramientas modernas que de momento, solo forman parte de unos tests que no se han transformado aún en producto popular en las calles.

Paypal es una de las compañí­as más preocupadas con este tema y, según comentan en mashable, ya están trabajando en un sistema de reconocimiento de rostros para poder pagar con una firma única y difí­cil de clonar: nuestra cara.

Esta terrible noticia para los gemelos y mellizos fue anunciada en nota de Paypal: una pestaña llamada local que podemos utilizar para encontrar tiendas o restaurantes cerca de nuestra ubicación que acepten los pagos de PayPal móvil. Usando esta función, podemos hacer checkin (igual que en Foursquare) y comenzar a pagar usando el móvil. Al hacer checkin, estamos registrándonos en la aplicación de la tienda, por lo que el cajero podrá cobrar haciendo clic en la imagen del perfil del comprador. El cliente recibirá entonces una alerta en su teléfono informando lo que ha pagado. Ya hay varios establecimientos en el Reino Unido que están usando esta función.

checkin

Como veis, de momento el reconocimiento es manual: el cajero identifica al comprador por la foto del perfil, aunque quien sabe si, dentro de poco, podremos ampliar las posibilidades escaneando la retina o mostrando la huella digital…