Deep Research Max de Google salta al 93,3% en DeepSearchQA: el agente que hace de analista junior mientras duermes

Google ha lanzado este 21-22 de abril de 2026 dos nuevos agentes de investigación autónoma sobre Gemini 3.1 Pro: Deep Research y Deep Research Max. Ambos están disponibles en preview pública vía los tiers de pago de la Gemini API, accesibles a través de la Interactions API que Google introdujo en diciembre de 2025. El salto de capacidad es el que más interesa: en el benchmark DeepSearchQA, Google ha pasado del 66,1% de puntuación en diciembre de 2025 al 93,3% en abril de 2026. No es una mejora incremental, es un salto de función. El blog oficial de Google firma el anuncio, y Digital Applied, Silicon Angle y The Decoder han publicado análisis detallados.

La división entre los dos agentes es deliberada. Deep Research está optimizado para velocidad y latencia baja. Reemplaza directamente la preview de diciembre, con mejor calidad, menor coste y menor latencia. Es el agente para experiencias interactivas donde el usuario espera respuesta rápida. Deep Research Max, el mayor salto del lanzamiento, utiliza compute extendido en tiempo de inferencia («extended test-time compute») para razonar iterativamente, buscar, refinar y generar informes exhaustivos. Está pensado para flujos asíncronos de background: el trabajador nocturno que corre un cron a las tres de la mañana y genera un informe completo de due diligence para que el equipo de analistas lo lea por la mañana.

Las funciones que marcan el salto técnico

Cinco capacidades separan estos agentes de la preview original. Primero, soporte MCP: Deep Research puede conectarse a Model Context Protocol servers, extendiendo su alcance desde la web abierta a datos privados empresariales. Google ha confirmado que FactSet, S&P y PitchBook están en marcha como partners MCP, cubriendo datos financieros y de mercado. Segundo, generación nativa de gráficos e infografías: el agente ya no entrega solo texto; produce visualizaciones en HTML o a través de Nano Banana 2 embebidas directamente en el informe, renderizadas inline en la salida markdown. Tercero, input multimodal: puedes arrancar la investigación con PDFs, CSVs, imágenes, audio o vídeo como contexto. Cuarto, planificación colaborativa: antes de que el agente arranque, muestra su plan de investigación y permite al usuario editarlo; puedes listar qué bases de datos priorizar, qué fuentes excluir, qué ángulos cubrir. Quinto, streaming en tiempo real de razonamiento: con thought summaries que se reciben mientras el agente piensa, y la opción de desconectar completamente el acceso web para restringir la búsqueda a fuentes propias.

Los benchmarks que Google publica van más allá del DeepSearchQA. En BrowseComp, el test de OpenAI que mide capacidad de investigación online con más de 1.000 tareas, Gemini 3.1 Pro puntúa 85,9 frente al 60 de Gemini 3 Pro (más de 25 puntos de diferencia). La comparación con la competencia requiere matices: The Decoder advierte que Anthropic reporta 84% en BrowseComp con Opus 4.6 usando reasoning desactivado, y OpenAI indica 89,3% para GPT-5.4 Pro (no GPT-5.4 estándar, que es el que Google comparó). Los benchmarks sirven para orientar, no para zanjar: en cada caso real, la calidad depende del dominio, las fuentes disponibles y la especificidad de la pregunta.

Cómo se usa: API con background=True

La implementación tiene particularidades técnicas relevantes para desarrolladores. Ambos agentes son agentic workflows: una única llamada dispara un loop autónomo de planificación, búsqueda, lectura y razonamiento. Como ese ciclo excede típicamente los timeouts de APIs síncronas, los agentes requieren background=True. La API devuelve un objeto Interaction parcial inmediatamente, con un ID que permite hacer polling hasta que el estado pase de in_progress a completed o failed. El identificador del agente es deep-research-preview-04-2026, y se accede a través de la Interactions API en Google AI Studio y Gemini API.

Sobre precios, Google no ha publicado tarifas finales al lanzamiento. Como referencia, la preview de diciembre de 2025 costaba alrededor de 2 dólares por millón de tokens input y output, con ventana de contexto de 1 millón de tokens. Se espera que Max lleve un premium reflejando el mayor compute test-time, pero probablemente se mantendrá dramáticamente más barato que el coste equivalente de un analista humano haciendo el mismo trabajo. Google ha indicado que la disponibilidad en Google Cloud para startups y empresas llega «próximamente».

Dónde marca la diferencia: finanzas, life sciences, market research

Los casos de uso donde Deep Research Max va a reventar el mercado son predecibles. Fondos de cobertura que compilan inteligencia sobre empresas antes de tomar posición: el agente combina datos de FactSet con análisis de la web abierta y documentos internos. Equipos de life sciences haciendo revisiones de literatura sobre tratamientos emergentes: el agente cruza PubMed, papers propios y protocolos internos. Agencias de market research preparando landscapes competitivos de categorías: lo que antes requería dos analistas junior tres días, ahora es un cron nocturno. Una agencia digital que ejecute auditorías SEO agénticas puede entregar en 72 horas lo que antes requería dos semanas de preparación. Esa compresión del coste de investigación es el verdadero valor.

OpenAI ha recorrido un camino paralelo con su propio Deep Research, que lleva más de un año evolucionando desde su lanzamiento original en febrero de 2025 hasta la versión dirigible presentada en febrero de 2026 con control de fuentes, plan editable y visor a pantalla completa. La competencia marca el ritmo: lo que Google lanza hoy responde directamente a la presión de OpenAI, que a su vez responde a Google, en un ciclo de iteración que en 14 meses ha transformado la categoría.

Mi valoración

El salto del 66,1% al 93,3% en DeepSearchQA en cuatro meses es la métrica más importante del lanzamiento, y merece pensarse dos veces. No es una mejora marginal de benchmark: es un cambio de comportamiento. Un agente que acierta 66 de cada 100 preguntas complejas de investigación es útil pero impredecible (necesitas verificar cada resultado). Un agente que acierta 93 de cada 100 cambia el rol humano: ahora la persona es un revisor de excepciones, no un validador por defecto. Eso tiene implicaciones laborales concretas para consultoras, agencias de investigación y equipos internos de análisis. La combinación de MCP más planificación colaborativa es lo que hace Deep Research Max verdaderamente empresarial. MCP resuelve el problema crónico de la IA generativa con datos internos (antes tenías que construir integraciones propietarias para cada conector); planificación colaborativa resuelve el problema de los agentes autónomos con scope creep (antes, si el agente se desviaba del objetivo, solo lo descubrías al final). Ahora ves el plan, lo editas, lo apruebas, y el agente ejecuta lo acordado. El ecosistema de agentes de investigación ha crecido tanto en 2025 y 2026 que la cuestión ya no es si usar uno, sino cuál y con qué control, especialmente teniendo en cuenta que estos sistemas operan con autonomía significativa sobre datos empresariales. El riesgo que sigue siendo el mismo: los agentes pueden equivocarse con seguridad convencida. Un 93,3% en benchmark no significa 93,3% de fiabilidad en tu dominio específico. Para contextos de alto riesgo (inversiones, dictámenes legales, decisiones médicas), la revisión humana experta sigue siendo no negociable. Pero para el 80% de la investigación cotidiana de oficina (landscapes competitivos, informes de mercado, briefings para reuniones), Deep Research Max es una compresión de tiempo que va a cambiar la estructura de coste del trabajo de conocimiento.

Preguntas frecuentes

¿Cuál es la diferencia entre Deep Research y Deep Research Max? Deep Research prioriza velocidad y coste bajo para experiencias interactivas en tiempo real. Deep Research Max usa compute extendido de test-time para informes exhaustivos en background, con mayor calidad y coste mayor.

¿Puedo usarlo sin programar? De momento no directamente. Ambos agentes están disponibles vía Gemini API y requieren llamadas a la Interactions API con background=True. Es un producto para desarrolladores. Google no ha anunciado todavía integración en una app de usuario final.

¿Se conecta a mis datos privados? Sí, vía MCP. Puedes configurar servidores MCP propios para que el agente consulte tus bases de datos internas, documentos, o feeds especializados. Google ha anunciado FactSet, S&P y PitchBook como primeros partners MCP oficiales.