interfaces gráficas | WWWhat's new

Google DeepMind ha presentado oficialmente Gemini 2.5 Computer Use, un modelo especializado construido sobre la base del potente Gemini 2.5 Pro, que permite a los desarrolladores crear agentes capaces de interactuar con interfaces gráficas como si fueran humanos. Esta capacidad implica que la IA ya no está limitada a trabajar solo con APIs o estructuras predefinidas: ahora puede navegar por webs, completar formularios, hacer clic en botones o desplazarse por una página, imitando acciones humanas en entornos digitales.

Esta evolución responde a una necesidad real: muchos procesos digitales todavía dependen de interfaces visuales que no están diseñadas para la interacción mediante API. Rellenar un formulario web, elegir una opción de un desplegable o gestionar una acción tras iniciar sesión requiere interacción visual y contextual. Gemini 2.5 Computer Use nace para cubrir precisamente ese hueco, actuando como un asistente que «ve» la pantalla y decide qué hacer, paso a paso. Continúa leyendo «Google lanza Gemini 2.5 Computer Use, su modelo para que las IA usen interfaces gráficas»

Desde octubre de este año, la función “Computer Use” del modelo Claude de Anthropic ha causado revuelo en el mundo de la inteligencia artificial. Esta característica permite que Claude interactúe con interfaces gráficas como un humano, utilizando capturas de pantalla y simulando acciones de teclado y mouse. ¿Es este el futuro de la automatización? Un estudio reciente realizado por Show Lab, de la Universidad Nacional de Singapur, ha evaluado las fortalezas y limitaciones de esta tecnología, arrojando luz sobre su verdadero potencial y las áreas donde aún hay desafíos por superar.

Continúa leyendo «Claude como agente GUI: ¿Qué tan cerca estamos de la automatización completa en interfaces humanas?»