Gemini 3 Deep Think: el modo de razonamiento de Google que quiere meterse en el laboratorio (y en el taller)

Publicado el

Gemini 3 Deep Think: el modo de razonamiento de Google que quiere meterse en el laboratorio (y en el taller)

El 12 de febrero de 2026, Google presentó una actualización importante de Gemini 3 Deep Think, un modo “especializado” de razonamiento dentro de Gemini orientado a tareas difíciles de ciencia, investigación e ingeniería. La idea, según el blog corporativo The Keyword, es que Deep Think no se limite a contestar con soltura, sino que trabaje como ese compañero de equipo que no se asusta cuando el problema viene con tachones, datos a medias y objetivos poco definidos.

El mensaje de fondo es claro: hay una diferencia enorme entre brillar en preguntas cerradas y ayudar en retos de investigación, donde a veces no existe una respuesta única o ni siquiera está claro qué significa “correcto”. Google dice que esta versión se ha desarrollado en colaboración cercana con científicos e investigadores, con el objetivo de afrontar ese tipo de escenarios sin barandillas.

Un “pensamiento profundo” para problemas con barro en las botas

En investigación, la realidad se parece poco a un examen tipo test. Imagina que intentas entender por qué un experimento funciona un día sí y otro no: tienes medidas incompletas, ruido, variables que se te escapan, y un cuaderno de laboratorio que parece un mapa del tesoro. En ese contexto, un modelo útil no es el que “sabe muchas cosas”, sino el que puede seguir hipótesis, detectar incoherencias y proponer caminos de verificación sin inventarse el mundo por el camino.

The Keyword describe justo ese enfoque: mezclar conocimiento científico con utilidad de ingeniería “del día a día”, para pasar de la teoría abstracta a aplicaciones prácticas. En términos cotidianos, sería como pasar de un manual de cocina a un chef que también sabe improvisar cuando faltan ingredientes, pero que te explica por qué cambia la textura y cómo comprobar que el resultado es seguro.

Primeras historias de uso: de la revisión de papers al crecimiento de cristales

Google acompaña el anuncio con ejemplos concretos de “early testers”. Uno de los casos más llamativos es el de Lisa Carbone, matemática en Rutgers, que trabaja en estructuras matemáticas vinculadas a la física de altas energías. Según la compañía, usó Deep Think para revisar un paper muy técnico y el sistema encontró un fallo lógico sutil que había pasado inadvertido en revisión humana.

Hay otro ejemplo en Duke University: el Wang Lab lo habría utilizado para optimizar métodos de fabricación en crecimiento de cristales con vistas a descubrir materiales semiconductores. En el relato de Google, Deep Think propuso una “receta” para crecer películas delgadas de más de 100 micrómetros, alcanzando un objetivo que métodos anteriores tenían dificultades para lograr.

También aparece el perfil de Anupam Pathak, responsable de I+D en Platforms & Devices dentro de Google, que habría probado Deep Think para acelerar el diseño de componentes físicos. Esta parte es relevante porque encaja con la promesa de “ingeniería real”: no solo texto y teoría, sino decisiones que acaban en piezas, tolerancias y prototipos.

Las cifras que Google enseña (y cómo leerlas sin perder el norte)

Los anuncios de modelos suelen venir acompañados de métricas, y aquí Google se apoya en benchmarks muy exigentes. En The Keyword se menciona un 48,4% en Humanity’s Last Exam sin usar herramientas, un 84,6% en ARC-AGI-2 verificado por la ARC Prize Foundation, un Elo 3455 en Codeforces, y rendimiento de “medalla de oro” en la Olimpiada Internacional de Matemáticas 2025.

Estas cifras impresionan, pero conviene interpretarlas como interpretarías el consumo homologado de un coche: sirven para comparar y detectar progreso, no para prometer exactamente lo que te ocurrirá en tu trayecto diario. Los propios benchmarks miden cosas distintas. ARC-AGI-2 busca habilidades de abstracción y generalización en puzzles; Codeforces se parece a una competición de programación con trampas y cronómetro; Humanity’s Last Exam apunta a preguntas de nivel académico avanzado. La foto conjunta sugiere amplitud, no garantía de acierto en tu caso particular.

Matemáticas y programación: cuando “pensar en paralelo” marca la diferencia

Deep Think no nace de la nada. En 2025, Google DeepMind ya había comunicado resultados de nivel oro en competiciones de matemáticas y programación con versiones avanzadas. En el caso de la IMO 2025, DeepMind explicó que una versión avanzada de Gemini con Deep Think resolvió cinco de seis problemas, alcanzando puntuación de medalla de oro, y destacó técnicas como el “parallel thinking”, que permite explorar varias rutas de solución a la vez, más parecido a un grupo de investigadores discutiendo en una pizarra que a una única línea de pensamiento.

En programación competitiva, DeepMind también publicó que una versión avanzada de Gemini 2.5 Deep Think alcanzó nivel de medalla de oro en la final mundial del ICPC 2025, resolviendo 10 de 12 problemas bajo las reglas del concurso. Aunque no es exactamente “Gemini 3”, sirve como antecedente: el proyecto lleva tiempo intentando convertir el razonamiento en una herramienta rigurosa, no solo fluida.

La página de modelos de DeepMind para Gemini 3 refuerza esta narrativa comparativa: sitúa a Gemini 3 Deep Think en 3455 Elo en Codeforces y muestra un 81,5% en IMO 2025 (según su propia tabla de evaluaciones).

Física, química y teoría: salir del “solo mates” para tocar ciencia dura

El salto interesante del anuncio de 2026 es que Deep Think no se queda en matemáticas y código. The Keyword afirma resultados de nivel oro en las secciones escritas de la Olimpiada Internacional de Física 2025 y la Olimpiada Internacional de Química 2025, junto con un 50,5% en CMT-Benchmark, enfocado en física teórica de materia condensada.

Aquí hay una lectura práctica: en ciencia, muchas tareas útiles no son “resolver un ejercicio”, sino hilar conceptos, comprobar supuestos, traducir un fenómeno a un modelo y proponer qué medir después. Si Deep Think mejora en dominios como física y química, su valor potencial crece para laboratorios y equipos de I+D que necesitan alguien que conecte ecuaciones, intuición y datos.

DeepMind también ha descrito sistemas “agentivos” apoyados en Deep Think para investigación matemática, con componentes de verificación y ciclos de revisión iterativos, precisamente para reducir fallos lógicos y alucinaciones en temas avanzados. Esto importa porque sugiere que la estrategia no es solo “más inteligente”, sino “mejor instrumentado”, como cuando cambias una lupa por un microscopio con calibración.

Ingeniería aplicada: del boceto a una pieza imprimible

En el apartado más tangible, Google menciona una capacidad muy visual: convertir un boceto en un objeto imprimible en 3D. El ejemplo que da es directo: Deep Think analiza un dibujo, modela la forma y genera un archivo para imprimir la pieza.

Aunque suene futurista, la metáfora cotidiana es sencilla: es como enseñarle a alguien un dibujo a mano de una estantería y que te devuelva un plano con medidas y cortes listos para carpintería. El reto real está en los detalles: interpretar la intención, asumir dimensiones razonables o pedirlas, evitar geometrías imposibles, y producir un resultado que no se rompa al fabricarlo. Si Deep Think se vuelve fiable en ese tipo de traducción entre “idea” y “fabricación”, el impacto se siente donde duele el tiempo: iteraciones de prototipo, pruebas, y comunicación entre perfiles técnicos.

Disponibilidad: suscripción premium y API para acceso selectivo

En cuanto al acceso, Google sitúa la novedad en dos frentes. Por un lado, el modo actualizado está disponible en la app de Gemini para suscriptores de Google AI Ultra desde el mismo día del anuncio. Por otro, por primera vez, Google dice que ofrece Deep Think mediante la Gemini API en un programa de acceso anticipado para investigadores, ingenieros y empresas seleccionadas.

Este segundo punto es clave porque, cuando una capacidad llega a API, deja de ser solo “una función para probar” y se convierte en componente integrable en flujos de trabajo: análisis de datos, herramientas internas, automatización de simulaciones, o asistentes especializados para equipos.

Lo que conviene vigilar: rigor, verificación y expectativas realistas

El anuncio está cargado de señales positivas, pero hay tres aspectos que merece la pena seguir con lupa. Primero, la reproducibilidad de los casos: detectar un fallo en un paper o proponer una receta de crecimiento de cristales suena potente, y el valor real se consolida cuando otros equipos pueden verificar el resultado con los mismos datos y condiciones. Segundo, la relación entre benchmark y trabajo: un modelo puede ser brillante en pruebas competitivas y, aun así, patinar con datos incompletos si no se le guía con buen contexto y criterios de validación. Tercero, la gobernanza del uso: cuanto más se integra en investigación y producto, más importante es saber cuándo el sistema “no sabe” y cómo lo comunica.

Google insiste en que Deep Think está pensado para problemas abiertos y datos “desordenados”, y eso, si se cumple, es justo lo que muchos equipos necesitan. La pregunta que queda es menos épica y más práctica: ¿cuántas horas de prueba y error puede ahorrar cuando la realidad no encaja en un formulario?