Así funciona la IA con la que Google Fotos crea imágenes en 3D

Publicado el

Nuevo Google Fotos

Google Fotos, además de proporcionar una potente plataforma para gestionar respaldos de fotografías, también pone a disposición de sus usuarios una serie de herramientas para trabajar con esas imágenes.

Entre las opciones disponibles para manipular imágenes, hay un llamativo modo llamado “foto cinemática” que proporciona un efecto de profundidad en 3D automáticamente, gracias al trabajo de una inteligencia artificial.

Google Fotos crea de manera automática este tipo de imágenes. Siempre que tengas la app actualizada, esta opción aparecerá en tus momentos destacados recientes, en la parte superior de la cuadrícula de fotos.

Para obtener estos resultados, Google Fotos se vale del aprendizaje automático para anticipar la profundidad de una imagen y generar una representación en 3D de la escena, aún cuando la imagen original no proporciona información de profundidad de la cámara a través de sus metadatos. Con eso, una cámara virtual animada se convierte en la vía para obtener un efecto de cámara panorámica suave, con aires cinematográficos.

Google explicó cómo funciona su IA

A través de su blog de proyectos de inteligencia artificial, Google compartió recientemente algunos aspectos técnicos de esta función estrenada a finales del año pasado.

IA Google Fotis

Para traer a la práctica el efecto de profundidad propio de este modo de “fotografía cinemática”, la IA de Google realiza una estimación a través de un mapa de profundidad, un recurso muy utilizado en experiencias de realidad aumentada o por el “modo retrato” presente de manera integrada con algunas cámaras y aplicaciones móviles.

Ya delimitado el espacio y la separación entre el objeto principal y el plano de fondo de una fotografía en la etapa anterior, el siguiente paso a ejecutar por el algoritmo es la definición de una trayectoria para la cámara. De esta forma, la IA determina la dirección y velocidad del desplazamiento simulado por esta técnica, tratando de paso las distorsiones que se generan producto de este movimiento.

Finalmente, el sistema tras la generación de estos arreglos gráficos se encarga de corregir el encuadre de la escena, para proporcionar cuadros correctamente enmarcados, Bajo el mismo principio de los pasos anteriores, gracias a la capacidad que tiene el algoritmo de identificar el objeto principal de un plano, este sistema puede ofrecer un resultado adecuadamente recortado.

De base, para realizar esta tarea, la información con la que cuenta este sistema para trabajar es muy poca, pues se reduce a la fotografía en sí, con un solo punto de vista.

Aspectos como la profundidad de una fotografía, las proporciones entre objetos, su perspectiva y otros elementos más, son tratados bajo la misma técnica con la que trabajan los teléfonos Pixel. Sin ir muy lejos, esta función justamente se trata de una implementación abierta de esta tecnología.

El mérito no es menor, a juzgar por los resultados. Al buscar plataformas web o aplicaciones móviles que prometan generar este efecto “parallax” con fotografías, es difícil encontrar herramientas que brinden buenos resultados para casos como estos, en los que sólo un par de píxeles mal tratados podrían estropear el resultado.

Puedes revisar en el blog de Google AI más aspectos técnicos y ejemplos de esta tecnología, desarrollada de manera conjunta por los equipos de Google Research y Google Fotos.