De nuevo llegan noticias desde Google Research, esta vez en el sector de las interfaces de usuario (UI) e infografías. Se trata de ScreenAI, una herramienta diseñada para comprender y razonar con estos elementos visuales de manera inteligente.
ScreenAI surge como una solución al desafío que presentan las interfaces de usuario e infografías debido a su complejidad y diversidad de formatos. Esta herramienta se apoya en una arquitectura conocida como PaLI y emplea una estrategia flexible de análisis de imagen denominada pix2struct. Lo presentan desde el blog de Google, donde indican que fue entrenado utilizando una mezcla única de conjuntos de datos y tareas, incluyendo una tarea de anotación de pantalla novedosa que permite identificar información de elementos UI en una pantalla, tales como tipo, ubicación y descripción.
La creación de datos para entrenar ScreenAI implicó la compilación de una amplia colección de capturas de pantalla de diversos dispositivos, seguido de un meticuloso proceso de anotación y clasificación de elementos UI y la generación de descripciones contextuales mediante técnicas avanzadas de reconocimiento óptico de caracteres (OCR) y modelado de lenguaje.
¿Para quién y cómo puede ser útil ScreenAI?
Imaginemos a los diseñadores de aplicaciones móviles y sitios web, quienes constantemente buscan optimizar la experiencia de usuario. Con ScreenAI, podrían obtener un análisis detallado de sus diseños, identificando rápidamente elementos que pueden mejorarse o ajustarse para una navegación más intuitiva.
Los desarrolladores también encontrarán en ScreenAI un aliado para automatizar pruebas de interfaz de usuario, generando preguntas y respuestas basadas en las capturas de pantalla de sus aplicaciones, lo que facilitaría la identificación de errores o áreas de mejora sin intervención manual constante.
Para los profesionales del marketing y analistas de datos, ScreenAI ofrece una herramienta poderosa para interpretar infografías y datos visuales automáticamente, permitiéndoles extraer insights valiosos de manera eficiente para informar decisiones estratégicas.
En el ámbito educativo, ScreenAI podría asistir a educadores y estudiantes en la comprensión de material didáctico complejo, al proporcionar explicaciones sencillas y accesibles de gráficos y tablas.
Está claro que, en situaciones donde el tiempo es esencial y la carga de trabajo es alta, como en el desarrollo ágil de software, el lanzamiento de campañas de marketing basadas en datos o la preparación de material educativo interactivo, ScreenAI se presenta como una solución para agilizar procesos y mejorar la calidad del trabajo final.
Aunque aún no está disponible como producto final, puede transformar nuestra manera de interactuar con la información visual, haciéndola más comprensible y accesible para todos, sin importar el nivel de experticia técnica.
De momento tenéis el estudio ScreenAI: A Vision-Language Model for UI and Infographics Understanding disponible en https://arxiv.org/abs/2402.04615