Una Inteligencia Artificial alimentando con fotos artificiales a otra Inteligencia Artificial

Publicado el

robot enseñando

Durante las últimas semanas se está oyendo hablar mucho de DALL-E 2, un sistema de inteligencia artificial que es capaz de generar imágenes realistas a partir de un texto. Podemos pedirle que genere una imagen de un astronauta montando un unicornio y lo hará con tanta eficacia que pensaremos que es una fotografía real.

En Twitter ya hay muchos hilos de gente que lo ha probado, y aunque no está disponible de forma pública, sí hay sesiones de vez en cuando que permiten obtener textos de la audiencia para ver lo que DALL-E 2es capaz de crear (no digo de dibujar porque no son dibujos exactamente).

Este lanzamiento reciente de OpenAI usa técnicas avanzadas de aprendizaje profundo que mejoran la calidad y la resolución de las imágenes generadas, y eso puede usarse para la generación de conjuntos de datos, con el objetivo de resolver los mayores desafíos de la visión artificial.

Es importante recordar que muchas aplicaciones de inteligencia artificial de visión artificial se encargan de analizar resultados médicos para encontrar tumores, o de mejorar las habilidades de los coches autónomos, y lo hacen gracias al entrenamiento realizado con millones de imágenes reales.

Un buen sistema de clasificación de imágenes debe ser entrenado con unas 300 millones de imágenes y más de 375 millones de etiquetas, y para eso es necesario conseguir esas imágenes y entregarlas al programa para el entrenamiento adecuado.

El problema actual con aplicaciones de inteligencia artificial de visión artificial

Imaginad que estamos intentando entrenar a un sistema de IA para que sepa lo que es una sombrilla de playa, y todas las fotos que le hemos mandado tienen mucho azul y amarillo, del cielo, el mar y la arena. Si lo hacemos así, el sistema de Inteligencia Artificial puede llegar a pensar que esos colores son imprescindibles para reconocer una sombrilla, y si le enseñamos una en medio de una ciudad, con fondo rojo y verde, por ejemplo, no lo reconocerá correctamente.

La solución que podría dar DALL-E 2

Ese problema podría solucionarse si le damos al ordenador millones de fotos de sombrillas generadas de forma artificial, que no estén en la playa y sí en otros entornos, y DALL-E 2 podría hacerlo de forma sencilla.

Es decir, una inteligencia artificial alimentando datos a otra inteligencia artificial.

Estas técnicas de generación de imágenes ya existen desde hace bastante tiempo, pero DALL-E 2 ofrece alta resolución (1024 × 1024), y al usar texto puede entender mejor la relación entre diferentes objetos en una imagen dada.

Lógicamente será necesario tener un muestreo humano para seleccionar las muestras generadas al azar, para verificar su validez, pero se conseguirá agilizar mucho el trabajo.

Podéis leer más sobre este tema en el artículo de Sahar Mor en venturebeat.com