Gemini 3 y la confianza real: por qué las pruebas a ciegas revelan más que los benchmarks tradicionales

Evaluar la inteligencia artificial en escenarios reales es cada vez más crucial para entender su verdadero impacto. El reciente caso de Gemini 3 Pro, el modelo de IA de Google, lo demuestra claramente. Aunque en su lanzamiento destacó por superar diversos benchmarks técnicos, fue una evaluación independiente, basada en pruebas con usuarios reales y sin identificación de marca, la que puso de relieve su verdadero avance: un salto de confianza del 16% al 69% frente a su versión anterior, Gemini 2.5 Pro.

Este estudio fue realizado por Prolific, una empresa fundada por investigadores de la Universidad de Oxford, especializada en la obtención de datos humanos representativos para el desarrollo ético de la IA. Su método, denominado HUMAINE, se aleja de los clásicos tests académicos y se centra en interacciones reales entre usuarios y modelos de lenguaje, evaluando atributos como la confianza, la adaptabilidad y el estilo comunicativo. Continúa leyendo «Gemini 3 y la confianza real: por qué las pruebas a ciegas revelan más que los benchmarks tradicionales»

Los LLMs también dudan: el curioso comportamiento de los modelos de lenguaje bajo presión

Un nuevo estudio de Google DeepMind y University College London ha revelado un aspecto poco explorado de los modelos de lenguaje de gran tamaño (LLMs): su confianza en las respuestas no siempre es estable, especialmente en conversaciones prolongadas. Esta investigación proporciona pistas clave sobre cómo los LLMs toman decisiones, cambian de opinión y por qué a veces parecen tambalear ante la crítica, incluso cuando inicialmente tenían razón. Continúa leyendo «Los LLMs también dudan: el curioso comportamiento de los modelos de lenguaje bajo presión»