Deep Research de OpenAI: así funciona el investigador incansable que aún no lo sabe todo

Publicado el

busqueda google

Buscar información en Internet puede ser agotador: enlaces rotos, páginas interminables, datos contradictorios… A veces, después de horas, terminamos con más preguntas que respuestas. ¿Y si existiera un asistente digital que pudiera navegar por miles de sitios web sin perder la paciencia, la concentración ni el rumbo? Eso es lo que propone OpenAI con su herramienta Deep Research, un sistema que promete ser más persistente que un humano buscando respuestas, aunque todavía se equivoca casi la mitad del tiempo.

¿Qué es Deep Research y qué lo hace especial?

Deep Research es una tecnología desarrollada por OpenAI que combina el poder de la inteligencia artificial con la navegación web en tiempo real. A diferencia de modelos como ChatGPT que trabajan principalmente con conocimientos aprendidos hasta cierta fecha, Deep Research puede consultar páginas web mientras responde, como si se tratara de un investigador en línea que nunca duerme.

Este sistema fue creado pensando en tareas complejas, esas que requieren buscar información dispersa en varias fuentes, contrastar datos, filtrar ruido y llegar a una conclusión precisa. Un reto que, incluso para humanos expertos, puede llevar horas.

¿Qué tan bueno es buscando?

OpenAI realizó un experimento llamado BrowseComp, diseñado para poner a prueba la capacidad de las IA de buscar en la web. Este test incluye 1.266 preguntas difíciles que no pueden resolverse con simples búsquedas, sino que requieren análisis, filtrado de datos y comprensión de múltiples capas de información.

Un ejemplo: “Identifica el título de una publicación científica anterior a junio de 2023 que mencione tradiciones culturales, procesos científicos e innovaciones culinarias, y que esté coescrita por tres personas, una de ellas profesora asistente en Bengala Occidental y otra con doctorado”.

Ese tipo de pregunta no es solo complicada, sino que demanda navegar por una red de información muy específica y verificar que todos los requisitos se cumplan. Deep Research logró encontrar muchas de estas respuestas. De hecho, obtuvo una precisión del 51,5%, superando con creces a otros modelos como GPT-4o o GPT-4.5, que apenas rozaron el 0%.

¿Y cómo le fue a los humanos?

Para tener una referencia clara, OpenAI también puso a prueba a personas. Incluso siendo conocedores del tema, el resultado fue claro: el 70% de los humanos se rindió después de dos horas de búsqueda. Solo el 30% encontró alguna respuesta, y de ese grupo, más del 14% respondió con errores.

Esto revela una realidad incómoda: en ciertos contextos, las IA ya pueden ser más eficientes que los humanos al buscar información online, al menos en tareas que implican explorar grandes volúmenes de datos sin descanso.

¿Por qué se equivoca tanto si es tan buena?

Aunque Deep Research es más persistente, tiene sus propias debilidades. Una de las más importantes es su exceso de confianza. En muchos casos, cuando se equivoca, lo hace con total seguridad. Este fenómeno se conoce como error de calibración: el modelo no comunica correctamente su nivel de certeza, lo que puede llevar a usuarios a creer en una respuesta incorrecta sin cuestionarla.

OpenAI intentó mitigar esto haciendo que el modelo generara múltiples respuestas posibles (hasta 64) y luego eligiera la mejor. Curiosamente, cuando tuvo que comparar sus propias propuestas, Deep Research eligió correctamente con mayor frecuencia. Esto indica que, aunque a veces no lo exprese bien, el sistema suele “saber” internamente cuál es la respuesta correcta.

Más potencia, mejores resultados

Otro hallazgo importante es que la precisión de Deep Research mejora a medida que se le asignan más recursos computacionales. Es decir, si se le permite hacer más búsquedas, procesar más datos en paralelo y evaluar más alternativas, su desempeño se dispara. Esto refleja una tendencia clara en la IA: el rendimiento está estrechamente ligado a la cantidad de cómputo disponible durante el proceso de inferencia.

¿Es una herramienta infalible?

No. Ni por asomo.

BrowseComp es una prueba rigurosa, pero también limitada. No mide habilidades como interpretar preguntas ambiguas, dar respuestas extensas o manejar matices culturales o contextuales. Además, Deep Research aún no es capaz de identificar con claridad cuándo no tiene suficiente información para responder, algo fundamental para ganarse la confianza de los usuarios.

Por otro lado, su acceso está limitado a suscriptores de los planes Plus y Pro de OpenAI, lo que deja fuera a muchos usuarios que podrían beneficiarse de su potencial.

¿Qué implica esto para el futuro de la búsqueda en Internet?

Este tipo de herramientas marca un cambio importante en cómo interactuamos con la información. Ya no se trata solo de consultar una fuente y copiar el dato, sino de delegar tareas complejas de investigación a agentes inteligentes que analizan, filtran y deciden por nosotros. Pero eso también implica nuevos desafíos éticos y prácticos:

  • ¿Cómo sabremos si la información es fiable?

  • ¿Qué ocurre cuando la IA se equivoca pero lo hace con seguridad?

  • ¿Hasta qué punto podemos confiar decisiones importantes a un modelo automático?

¿Deberíamos usar Deep Research hoy?

Sí, pero con precaución. Si necesitas encontrar información muy específica o estás enfrentando una tarea de búsqueda agotadora, Deep Research puede ahorrarte tiempo. Es como tener un asistente muy dedicado que no se cansa. Pero, como cualquier ayudante, necesita supervisión.

Piensa en Deep Research como en un estudiante brillante que aún está aprendiendo: puede ayudarte a avanzar más rápido, pero todavía necesita que alguien revise sus trabajos antes de publicarlos.