Google lanza Gemini 2.5 Computer Use, su modelo para que las IA usen interfaces gráficas

Google DeepMind ha presentado oficialmente Gemini 2.5 Computer Use, un modelo especializado construido sobre la base del potente Gemini 2.5 Pro, que permite a los desarrolladores crear agentes capaces de interactuar con interfaces gráficas como si fueran humanos. Esta capacidad implica que la IA ya no está limitada a trabajar solo con APIs o estructuras predefinidas: ahora puede navegar por webs, completar formularios, hacer clic en botones o desplazarse por una página, imitando acciones humanas en entornos digitales.

Esta evolución responde a una necesidad real: muchos procesos digitales todavía dependen de interfaces visuales que no están diseñadas para la interacción mediante API. Rellenar un formulario web, elegir una opción de un desplegable o gestionar una acción tras iniciar sesión requiere interacción visual y contextual. Gemini 2.5 Computer Use nace para cubrir precisamente ese hueco, actuando como un asistente que «ve» la pantalla y decide qué hacer, paso a paso. Continúa leyendo «Google lanza Gemini 2.5 Computer Use, su modelo para que las IA usen interfaces gráficas»

El nuevo agente de ChatGPT: más que un chatbot, ahora también ejecuta tareas complejas

OpenAI ha dado un paso importante en la funcionalidad de ChatGPT al lanzar un agente autónomo que no solo conversa, sino que también piensa, decide y actúa. Esta nueva capacidad lo convierte en un asistente más práctico y eficiente, capaz de gestionar tareas digitales complejas de forma autónoma, desde navegar sitios web hasta generar entregables editables como hojas de cálculo y presentaciones.

Continúa leyendo «El nuevo agente de ChatGPT: más que un chatbot, ahora también ejecuta tareas complejas»

Microsoft Copilot ahora puede hacer tareas en internet por ti: ¿el principio del asistente perfecto?

Imagina que estás organizando un viaje, pero en lugar de abrir diez pestañas en tu navegador y llenar formularios interminables, simplemente le dices a tu asistente: “Resérvame un hotel en Roma, encuentra un buen restaurante italiano y compra entradas para un espectáculo local”. Y como por arte de magia, todo queda hecho. Pues bien, eso ya no es ciencia ficción: Microsoft Copilot lo hace realidad.

La nueva función Actions de Copilot representa un gran paso en la evolución de los asistentes de inteligencia artificial. Ya no se trata solo de responder preguntas o ayudarte a escribir correos: ahora puede actuar por ti en la web, realizando tareas reales como hacer reservas, comprar productos o encontrar vuelos, todo mediante simples instrucciones en lenguaje natural.

Vamos a ver cómo funciona y qué significa para nuestro día a día.


¿Qué es Copilot Actions y por qué es importante?

Microsoft ha anunciado que Copilot, su inteligencia artificial integrada en Windows y otros servicios, ahora puede interactuar con páginas web en tu nombre. Esta capacidad, llamada “Actions”, permite que el asistente haga tareas como:

  • Reservar mesas en restaurantes.

  • Comprar entradas para conciertos.

  • Alquilar coches o buscar vuelos.

  • Comprar regalos o flores para enviar a alguien.

  • Incluso ayudarte a encontrar y programar visitas a apartamentos.

Y lo mejor: todo esto sin que tengas que moverte entre múltiples aplicaciones o páginas web. Solo necesitas darle una instrucción, como si se lo pidieras a un asistente humano.


¿Con qué servicios funciona?

En esta primera etapa, Microsoft ha cerrado alianzas con plataformas de viajes y ocio muy conocidas, como:

  • Booking.com, Expedia, Kayak, Skyscanner y Tripadvisor: para buscar hoteles, vuelos y actividades.

  • OpenTable: para hacer reservas en restaurantes.

  • 1-800-Flowers.com: para enviar flores.

  • Vrbo y Priceline: para encontrar alojamientos.

  • Viator: para experiencias y actividades turísticas.

Pero lo más interesante es que Microsoft afirma que Actions podrá operar con “la mayoría de los sitios web”, no solo con estos socios iniciales. Esto abre la puerta a que puedas pedirle casi cualquier cosa, como si tuvieras un pequeño asistente personal en tu computadora, disponible 24/7.


¿Cómo funciona Copilot Actions?

Aunque Microsoft no ha dado detalles técnicos extensos, el funcionamiento es simple desde el punto de vista del usuario: solo tienes que escribir una orden como:

“Encuentra vuelos baratos de Madrid a París para el próximo fin de semana y reserva el más económico.”

Copilot se encargará de abrir las páginas necesarias, navegar por ellas, rellenar formularios y confirmar reservas, todo mientras tú sigues trabajando en otra cosa.

Es como delegar una tarea tediosa a alguien de confianza, pero sin necesidad de explicar todo paso a paso.


¿Y qué hay de la privacidad y el control?

Una de las preocupaciones que surgen cuando un asistente puede hacer cosas por ti en la web es: ¿cómo sabe qué puede y qué no puede hacer? ¿Tendrá acceso a mis contraseñas? ¿Puede hacer una compra sin mi permiso?

Aunque no se han revelado todos los mecanismos de seguridad, se espera que Microsoft implemente controles de autorización, confirmaciones y opciones para revisar cada acción antes de completarla. De hecho, en una demostración en la que Copilot buscaba apartamentos y concertaba visitas, muchos usuarios señalaron que esperaban más pasos de validación. Así que es probable que Microsoft aún esté afinando esos aspectos.


La competencia se mueve, pero Microsoft se adelanta

Este tipo de funciones no son exclusivas de Microsoft. Otras grandes empresas están en la misma carrera:

  • Amazon lanzó “Nova”, un agente de IA que opera directamente en el navegador.

  • OpenAI trabaja en “Operator”, una función para completar tareas complejas.

  • Google desarrolla “Project Mariner”, su propio agente web automatizado.

  • Anthropic, por su parte, ofrece en pruebas una función en Claude 3.5 que también puede interactuar con páginas.

Sin embargo, la diferencia es que Copilot Actions ya está siendo lanzado al público, y Microsoft asegura que estará disponible progresivamente en más mercados, idiomas y plataformas “en las próximas semanas y meses”.

Esto convierte a Copilot en uno de los primeros asistentes con capacidades reales de acción automatizada disponibles para usuarios comunes, no solo para desarrolladores o testers.


¿Qué significa esto para ti?

La llegada de estas funciones puede parecer un pequeño cambio, pero en realidad es una transformación profunda de cómo interactuamos con la tecnología. Hasta ahora, los asistentes virtuales eran eso: “asistentes”, que te guiaban o te daban información. Con Actions, se convierten en delegados, en actores que hacen cosas por ti, como si fueran una extensión de tu voluntad digital.

Esto puede suponer:

  • Ahorro de tiempo en tareas repetitivas o logísticas.

  • Mayor productividad, al poder enfocarte en lo importante mientras la IA gestiona lo accesorio.

  • Un cambio en la forma en que navegamos por internet, donde los clics los hace una IA, no nosotros.

Y claro, también plantea preguntas éticas y técnicas: ¿cómo se asegura la transparencia? ¿Podemos confiar plenamente en que actúe en nuestro beneficio? ¿Qué errores podría cometer?


Un primer paso hacia el futuro del trabajo digital

Copilot Actions es solo la punta del iceberg. Microsoft también ha anunciado nuevas herramientas como:

  • Conversión de contenidos web en podcasts con voz generada por IA.

  • Búsqueda automática de ofertas y compras inteligentes.

  • Reconocimiento de lo que muestra tu cámara para sugerencias contextuales.

Todo esto apunta a un objetivo común: que la inteligencia artificial no solo sea inteligente, sino útil, práctica y verdaderamente asistencial.

El sueño de tener un “asistente digital” real y competente está cada vez más cerca. Y aunque aún hay muchos retos por delante, Microsoft Copilot ha dado un paso valiente hacia ese futuro.

Convergence: La Inteligencia Artificial que automatiza la navegación Web

La inteligencia artificial ha evolucionado de manera significativa con el lanzamiento de Convergence Proxy, una función avanzada dentro de la plataforma Convergence AI que permite automatizar tareas de navegación web con una precisión sin precedentes. Desde WWWhatsnew, hemos explorado su potencial y queremos compartir con vosotros sus capacidades y beneficios más destacados.

Continúa leyendo «Convergence: La Inteligencia Artificial que automatiza la navegación Web»

Operator: el agente de IA de OpenAI que se enfoca en las tareas online

Hoy en día, las tareas repetitivas en navegadores web pueden consumir tiempo y energía, desde reservar una cena hasta gestionar una lista de compras. OpenAI ha lanzado una solución innovadora para simplificar estas actividades: Operator, un agente semiautónomo de inteligencia artificial que interactúa con navegadores web de forma similar a como lo haría un usuario humano. Este desarrollo marca un avance significativo en la transformación de la IA de una herramienta pasiva a un participante activo en el ecosistema digital.

Continúa leyendo «Operator: el agente de IA de OpenAI que se enfoca en las tareas online»