El nuevo agente de ChatGPT: más que un chatbot, ahora también ejecuta tareas complejas

Juan Diego Polo

hace 5 meses

OpenAI ha dado un paso importante en la funcionalidad de ChatGPT al lanzar un agente autónomo que no solo conversa, sino que también piensa, decide y actúa. Esta nueva capacidad lo convierte en un asistente más práctico y eficiente, capaz de gestionar tareas digitales complejas de forma autónoma, desde navegar sitios web hasta generar entregables editables como hojas de cálculo y presentaciones.

¿Qué puede hacer el agente de ChatGPT?

Este agente combina tres grandes pilares: la navegación activa por la web (heredada del sistema Operator), la síntesis de información (de la investigación en profundidad) y las capacidades conversacionales del modelo. La mezcla permite que el sistema pase de una charla a la acción sin necesidad de cambiar de herramienta ni de interfaz.

Puedes pedirle, por ejemplo, que:

Revise tu calendario y elabore un resumen de reuniones con información reciente de los clientes.
Analice competidores y cree una presentación con las conclusiones.
Rellene formularios web complejos, aplicando filtros y tomando decisiones.

Todo esto lo hace desde su propio «ordenador virtual», que le permite realizar acciones como si fuera un usuario humano en un navegador.

Tú tienes el control

Aunque el agente puede tomar decisiones y actuar, el usuario siempre mantiene el control. Antes de realizar tareas críticas como enviar formularios o acceder a cuentas, el sistema solicita confirmación. También puedes pausar, editar o cancelar las tareas en cualquier momento.

Este enfoque permite una colaboración fluida entre humano y máquina: ChatGPT pregunta si tiene dudas, recuerda el contexto y retoma el trabajo donde lo dejó cuando se interrumpe.

Un conjunto de herramientas para elegir el mejor camino

El agente tiene acceso a distintos recursos para ejecutar sus tareas:

Navegador visual: simula la interacción humana con páginas web.
Navegador de texto: ideal para razonamiento paso a paso.
Acceso a API: extrae información estructurada directamente.

Por ejemplo, si se trata de obtener datos financieros rápidos, usará la API; si es un formulario con validaciones visuales, usará el navegador gráfico.

Mejoras respecto a las versiones anteriores

Hasta ahora, OpenAI había desarrollado herramientas que funcionaban bien por separado pero no se complementaban. Operator podía hacer clics y desplazarse, pero no analizar en profundidad. Por su parte, la investigación profunda entendía muy bien la información, pero no podía interactuar activamente con la web.

El nuevo agente fusiona ambas capacidades, permitiendo tareas completas de principio a fin.

Ejemplos de uso en el mundo real

En el entorno profesional, puedes:
- Transformar capturas de pantalla en presentaciones editables.
- Reorganizar reuniones o eventos.
- Actualizar hojas de cálculo con datos nuevos sin perder el formato.
En el ámbito personal:
- Planificar un viaje y hacer reservas.
- Organizar menús semanales.
- Buscar especialistas médicos y programar citas.

Evaluaciones: rendimiento medido con pruebas reales

El agente ha sido sometido a varias evaluaciones académicas y de tareas reales:

En Humanity’s Last Exam, superó al modelo anterior con una puntuación de 43,1 en preguntas de nivel experto.
En DSBench, donde se evalúa la capacidad de análisis y modelado de datos, superó tanto a humanos como a modelos anteriores.
En SpreadsheetBench, duplicó el rendimiento de GPT-4o al editar hojas de cálculo reales.
En tareas de modelado financiero avanzado, superó a analistas humanos y otros modelos.
En WebArena y BrowseComp, pruebas de navegación compleja, alcanzó puntuaciones más altas que cualquier otro agente.

Control de privacidad y seguridad

El sistema ha sido diseñado con una capa de protección específica para evitar usos indebidos y errores críticos. Algunas medidas incluyen:

Confirmación explícita antes de ejecutar acciones sensibles.
Modo de supervisión para tareas que requieren revisión humana.
Rechazo de tareas de alto riesgo como transacciones financieras.

Además, el agente está entrenado para resistir ataques como la inyección de instrucciones maliciosas y seguir una jerarquía de indicaciones seguras. Los datos personales no se almacenan, y el usuario puede borrar su historial de navegación con un clic.

Disponibilidad del agente de ChatGPT

Desde el 17 de julio de 2025, el agente se está desplegando para usuarios Pro, Plus y Team, con acceso prácticamente ilimitado en el plan Pro. También estará disponible en breve para clientes Enterprise y Education.

El sistema puede integrarse con conectores de ChatGPT, lo que permite acceder a datos personales como bandejas de entrada o calendarios (siempre con autorización previa). Además, las tareas se pueden programar para que se repitan automáticamente, como generar informes semanales.

Límites actuales y próximos pasos

Aunque la herramienta ya es muy avanzada, todavía tiene limitaciones. La generación de presentaciones, por ejemplo, está en fase beta y el formato puede ser básico si se parte desde cero. No obstante, el modelo mejora constantemente.

Se espera que el agente de ChatGPT evolucione hacia una mayor fluidez, precisión y sofisticación, reduciendo la necesidad de supervisión sin comprometer la seguridad.