SongCatcher es la nueva característica que llegará a lo largo de hoy a todos los usuarios de la aplicación de Deezer en dispositivos Android, según ha anunciado la compañía.
Se trata de una función similar a Shazam pero que en el caso de Deezer, la nueva función se integra dentro de la aplicación al objeto de que los usuarios puedan identificar la música que están escuchando en el lugar en el que se encuentren en cada momento, aprovechando el catálogo de más de 53 millones de canciones de todo el mundo que Deezer dispone, con la posibilidad de agregar el tema identificado en cuestión a sus listas de reproducción como a sus listas de favoritos. Continúa leyendo «Deezer lanzará hoy su propio «Shazam» integrado en su aplicación para Android»
Si reconocer seres y objetos en una imagen es un reto enorme, reconocerlos y además armar un frase para describir lo que está en dicha imagen es un desafío gigante. En Google lo saben y desde 2014 llevan trabajando en un modelo referenciado como Show and Tell que, con técnicas de aprendizaje de máquinas, realiza dicho proceso con brillantes resultados.
Pues bien, dicho modelo se libera ahora al público mundial, esto es, se convierte en open source para que cualquiera pueda adaptarlo a su investigaciones y necesidades. Ya está disponible en TensorFlow acompañado de los diferentes artículos científicos que sustentan su objetivo, funcionamiento técnico, capacidad y detalles para su implementación, entre otras cosas. Continúa leyendo «Google libera a Show and Tell, sistema inteligente que añade subtítulos a imágenes»
Seguramente muchos recordaréis la serie «Lie to me» («Miente, si puedes», en español), inspirada en el trabajo científico del Psicólogo Paul Ekman. En la serie, y en los estudios de Ekman, podemos ver cómo es posible reconocer emociones a través del movimiento (muchas veces involuntario) de partes del rostro, y es eso lo que está siendo tratado en el mundo digital para que la tecnología consiga analizar lo que está sintiendo el cliente.
Nuance ha anunciado en una nota de prensa que está llevando capacidad de reconocimiento de voz a los modelos de relojes inteligentes Pebble Time y a Pebble Time Steel en el día de hoy, y llegará posteriormente al modelo Pebble Time Round el próximo 8 de noviembre en los Estados Unidos.
Además, añade que Pebble ha lanzado la API de dictado por voz, Dictation API, la cual aprovecha la tecnología de voz de Nuance, para posibilitar a terceros desarrolladores habilitar las capacidades de voz a sus aplicaciones.
Con ello, los usuarios de estos dispositivos podrán responder a los mensajes y a las conversaciones que les vayan llegando y establecer comandos vía voz con un sólo toque de botón.
Acorde a Kean Wong, Vicepresidente de Ingeniería de Software de Pebble, el hecho de que sea posible que las capacidades de voz estén disponibles para su comunidad de desarrolladores ayudará a crecer exponencialmente el ecosistema de Pebble, proporcionando a los usuarios el acceso a más aplicaciones de Pebble que sean más divertidas, intuitivas y fáciles de usar.
Esta colaboración entre ambas compañías abre un nuevo mundo de posibilidades en la interacción con los propios relojes Pebble mediante dictados de voz a través de aquellas aplicaciones que ya estén preparadas.
En las últimas horas hemos podido saber que Facebook se encuentra trabajando en una nueva tecnología que le permitiría identificar a los usuarios de la red social no por sus atributos físicos, sino por la cámara de fotos que utilizan habitualmente. De hecho, Facebook habría solicitado la patente de esta tecnología hace ya varios meses, durante el pasado mes de enero.
Como decimos, el objetivo de Facebook sería identificar a los usuarios de la red social a partir de la cámara que utilizan, lo cual podría tener un gran número de aplicaciones distintas. Es importante tener en cuenta que no nos referimos a la marca o al modelo de cámara utilizado, sino que hablamos de una tecnología capaz de identificar al usuario por la cámara en particular utilizada. La tecnología desarrollada por Facebook sería capaz de reconocer particularidades físicas concretas sobre la cámara extraídas a partir de las imágenes tomadas con la misma. Hablamos de detalles tan precisos como píxeles defectuosos, polvo, defectos en la lente y demás elementos que escapan al control de los usuarios. De esta forma, Facebook tendría la capacidad de averiguar qué fotos han sido tomadas con tu cámara incluso aunque estén subidas a la cuenta de otro usuario. La red social podría utilizar esta información para un gran número de fines distintos. Por ejemplo, podría recomendar nuevos amigos si detecta que alguien ha subido una foto con tu cámara, lo cual es signo inequívoco de que existe alguna relación entre ambos. Y y no solo eso, sino que también mejoraría las recomendaciones de grupos y eventos. Además de ello, el uso de esta tecnología también reportaría ventajas exclusivas para Facebook, como la posibilidad de detectar usuarios con varias cuentas, algo que no está permitido.
Sin duda, estamos ante un nivel de identificación realmente preciso que pone de manifiesto la importancia que tiene para la red social de conocer exactamente quién somos y con quién nos relacionamos. Permaneceremos atentos ante cualquier novedad relacionada con la patente solicitada por Facebook.
Perteneciente a Orbeus, compañía especializada en la visión por ordenador y el reconocimiento de rostros y escenas, ReKoMe fue el nombre por el cual se presentó, en fase beta, en la pasada Macworld, y hoy ha sido renombrada a PhotoTime en su nueva versión, disponible ya desde la App Store de manera gratuita. Se trata de una aplicación móvil especializada en la organización, catalogación y etiquetado de las fotografías que los usuarios disponen tanto en sus dispositivos móviles como en algunos servicios en la nube, dando soporte por el momento a los servicios en la nube de Facebook e Instagram.
La idea es que los usuarios puedan acceder rápidamente a las fotografías concretas que desean mediante sencillas búsquedas, sin importar en los medios en los que se encuentren, ya sean búsquedas por nombres, eventos, lugares o incluso palabras clave. Para ello, PhotoTime cuenta con la tecnología de reconocimiento facial avanzada, perteneciente a su compañía desarrolladora, así como su sistema de comprensión de escena, lo que permitirá organizar de manera automática las fotografías que los propios usuarios dispongan en sus dispositivos y en las redes sociales soportadas que tengan vinculadas, donde además, cuando en dichos medios cuenten con nuevas fotografías, las mismas serán reconocidas y organizadas por la propia aplicación.
El proceso de catalogación de fotografías es cuestión de segundos, y en este sentido, hay que prestar especial atención a que Phototime otorgue las palabras claves adecuadas para evitar ciertas confusiones, aprendiendo a usar las palabras claves correctas a lo largo del tiempo mediante correcciones que vayan efectuando los usuarios. Orbeus tiene la intención de añadir más servicios en la nube próximamente.
PhotoTime está optimizada tanto para teléfonos como tabletas bajo iOS desde la versión 7.0 en adelante.
En pastec.io tenemos una aplicación de código libre que nos ayuda a integrar un sistema de reconocimiento de imágenes en la aplicación que estemos construyendo.
Este tipo de sistemas son muy populares gracias a grandes apps como Goggles y otras iniciativas (hay varios proyectos de este tipo dentro de la categoría de Realidad Aumentada). La idea es que el usuario pueda enfocar una imagen con su móvil y la aplicación pueda saber qué es lo que se está viendo, algo que puede hacerse sin problemas cuando hablamos de cuadros, portadas de discos y demás trabajos en los que haya pocas dudas sobre su contenido cuando se busca la información en Internet.
Pastec es gratuito para los que bajan la plataforma y la utilizan en su propio servidor. Su funcionamiento es sencillo: ofrece la funcionalidad de reconocimiento de imagen obteniendo una foto como entrada y devolviendo datos estructurados en la salida, con la información de la imagen capturada.
Avisan que no es capaz de reconocer rostros, ni códigos de barra ni objetos, por lo que solo podremos usarlo para identificar elementos conocidos a nivel mundial (en el vídeo de ejemplo muestran su funcionamiento con algunas pinturas).
Después de más de tres años de desarrollo, la División de Servicios de Información de la Justicia Penal (CJIS) del FBI ha anunciado que su Sistema de Identificación de Próxima Generación (NGI, por sus siglas en inglés), ya está plenamente operativo, teniendo dicho sistema como objetivo la expansión de las capacidades de identificación biométrica, y en última instancia, el reemplazo del Sistema Automatizado de Identificación de Huellas Dactilares Integrado (IAFIS) del FBI, así como la posibilidad de añadir nuevos servicios y capacidades.
Como parte de la plena capacidad operativa del NGI, su equipo está incorporando dos nuevos servicios: Rap Back y el Sistema Interestatal de Fotos (IPS, por sus siglas en inglés).
Rap Back permite a entidades autorizadas la posibilidad de recibir notificaciones de estado en curso sobre los antecedentes penales señalados en personas que ocupan puestos de confianzas, mejorando notablemente la eficacia en los avisos de las actividades delictivas posteriores de las personas investigadas o bajo supervisión para diferentes entidades de justicia penal. El sistema de reconocimiento facial IPS es una herramienta de investigación que dispone de capacidad de búsqueda de imágenes asociadas con identidades penales.
The Verge señala que el sistema de reconocimiento facial es un servicio bastante criticado por grupos a favor de la privacidad ya que mezcla las capturas tradicionales de imágenes con rostros no penales extraídos de los registros de empleo y las bases de datos de verificación de antecedentes, esperando que dicho sistema obtenga un máximo de 52 millones de rostros en total. También se hace eco de aquellos colectivos de la industria que consideran al IPS como un sistema ineficaz, sobre todo, por su relativa baja tasa de éxito. Para un rostro determinado, NGI devuelve una lista de 50 candidatos, prometiendo una probabilidad del 85% de que el sospechoso en cuestión esté en dicha lista.
ImageNet es una plataforma online que tiene como objetivo convertirse en un recurso útil para investigadores, educadores, estudiantes y todos aquellos que comparten su pasión por la imagen, sirviendo de bases de datos de la imagen organizada bajo la jerarquía WordNet. Desde 2010 viene organizando su concurso a modo de desafío para poner a prueba la tecnología en lo que respecta a la detección e interpretación de las imágenes, tanto en lo que respecta a los objetos que las componen como en las zonas en las que se encuentran.
A dicho concurso de presentan instituciones académicas líderes y laboratorios de la industria, tal y como señala Christian Szegedy, Ingeniero de Software de Google, a través de Research Blog, en el que señala que su equipo, GoogLeNet, ha quedado en primer lugar en las tareas de clasificación y detección del desafío de este año, doblando la calidad de ambas tareas con respecto a los resultados del pasado año. La presentación de su equipo ha sido abierta, de modo que los detalles exactos del desafío han sido compartidos con el resto de usuarios que conforman la amplia comunidad enfocada a la visión por ordenador, fomentando la colaboración y acelerando el progreso en este campo.
El desafio de ImageNet consta de tres pistas: la clasificación, para medir la capacidad de los algoritmos a la hora de asignar las etiquetas adecuadas a una imagen; la clasificación con localización, que evalúa cómo un modelo de algoritmo ha llevado las etiquetas a una imagen y la localización de los objetos subyacentes; y la detección, similar a la anterior pero utiliza criterios de evaluación más estrictos. Se añade la dificultad del uso de imágenes en las que se encuentran pequeños objetos de difícil reconocimiento, lo que hace del desafío aún más interesante, yendo más allá del etiquetado de las imágenes.
Christian Szegedy continúa señalando a su propio equipo participante por el esfuerzo realizado y comenta como lo han llevado a cabo mediante el uso de la infraestructura DistBelief para hacer posible la formación de redes neuronales de una manera distribuida y de fácil interacción.
Soundwave (soundwave.com) es una startup irlandesa cuyo servicio nos permite compartir la música que estamos escuchando desde nuestros dispositivos móviles, disponiendo de aplicación móvil para Android e iOS, y conocer aquella que están escuchando las personas a las que estemos siguiendo así como las que tenemos a nuestro alrededor, según el área que indiquemos, pudiendo escuchar fragmentos de 30 segundos de duración, y posteriormente acudir a YouTube o SoundCloud o adquirir los temas que nos interesen.
Lanzada a principios del verano pasado, la misma puede considerarse como una alternativa móvil a Last.fm, la cual está viviendo sus momentos más bajos.
Hoy actualiza sus aplicaciones móviles para dar soporte a la nueva extensión para Chrome que acaban de lanzar, las cuales nos ofrecerán un código de siete dígitos que nos permitirán vincular nuestros navegadores a nuestras cuentas de usuario. Además, desde ahora también seguirán los temas musicales que estamos escuchando en SoundCloud y Pandora desde nuestros dispositivos móviles.
Ya tan sólo nos queda instalar la extensión e indicar el código de siete dígitos que hemos obtenido, de manera que la extensión se encargará de obtener los temas musicales que estamos escuchando en los once servicios de difusión musical vía web que soporta, entre los que se encuentra Rdio, Spotify, Deezer y Google Play Music. El propio servicio se encargará de identificar los temas sin que los usuarios tengamos que hacer nada.