Cuando escuchamos que un modelo de IA supera la media humana en un test de coeficiente intelectual, es tentador imaginarlo como ese estudiante prodigio que resuelve crucigramas antes de que suene el timbre. Sin embargo, medir la inteligencia de las máquinas no es tan sencillo como pasarles un examen escolar. En el fondo, evaluar a una IA es como preguntar a un GPS cuán buen explorador sería en una ciudad sin carreteras: necesitamos pruebas pensadas para su “forma de moverse”. Por eso el IQ de Mensa se ha convertido en un terreno de juego exigente, diseñado originalmente para humanos pero cada vez más usado para comparar algoritmos.
Cómo funciona el test de Mensa noruega
El cuestionario que la división noruega de Mensa utiliza se centra en patrones, lógica y razonamiento abstracto. Piense en él como una sucesión de rompecabezas de piezas geométricas: hay que adivinar la ficha que completa la serie, sin ayudas textuales ni culturales. Es el tipo de desafío que intenta filtrar conocimientos previos y medir la habilidad pura de detectar relaciones. Al pasar esa prueba a un modelo como OpenAI o3, los investigadores quieren saber si el motor estadístico que late debajo puede conectar puntos sin apoyarse en datos memorizados.
La tabla de clasificación: lenguaje al mando
Según el estudio de Voronoi basado en Tracking AI, OpenAI o3 obtuvo un llamativo 135 de IQ, por encima del promedio humano (90‑110) y encabezando la lista de 24 modelos evaluados. Le siguieron Claude‑4 Sonnet (127) y Gemini 2.0 Flash (126). Un patrón salta a la vista: los puestos de honor pertenecen, casi en exclusiva, a sistemas orientados al texto. Es como si en una competición de maratón los corredores descalzos vencieran a quienes llevan mochilas pesadas; al despojarse de la “visión”, los modelos muestran su mejor zancada lingüística.
El talón de Aquiles de la visión
Cuando las mismas arquitecturas añaden ojos digitales, los resultados caen en picado. GPT‑4o con visión apenas logró 63 puntos, y Grok‑3 Think (Vision) se quedó en 60. ¿Por qué? Imagínese que un chef debe cocinar mientras resuelve un sudoku complejo; repartir su atención entre dos tareas reduce su velocidad y precisión. Del mismo modo, integrar imágenes obliga al modelo a equilibrar dos flujos de información muy distintos. Hoy, el razonamiento multimodal sigue siendo un rompecabezas sin todas las piezas encajadas.
“La ilusión del pensamiento”: ¿un baño de realidad?
Un equipo de Cupertino agitó aún más el debate con el paper The Illusion of Thinking. Allí muestran que los llamados modelos de gran razonamiento no “piensan” de verdad: simulan pasos lógicos que se desmoronan cuando el problema se complica. Para demostrarlo, diseñaron puzles algorítmicos inéditos —libres de “contaminación” de datos de entrenamiento— y vieron cómo la precisión colapsaba a cero en complejidades altas. Es un recordatorio de que, detrás del brillo mediático, la inteligencia artificial todavía navega con mapas estadísticos, no con comprensión genuina.
Lo que viene: pistas para desarrolladores y empresas
Para los equipos que construyen productos sobre estos modelos, las conclusiones son claras:
- Elige el modelo según la tarea: si tu aplicación es puramente textual —por ejemplo, generación de informes o análisis de contratos—, un modelo como o3 ofrece ventaja competitiva inmediata.
- Evalúa con pruebas propias: los benchmarks públicos son un buen punto de partida, pero cada dominio tiene matices que requieren tests internos. Es como probar un coche de Fórmula 1 en calles adoquinadas: los números de la pista no lo cuentan todo.
- Combina modelos especializados: una estrategia emergente es usar un motor lingüístico para el razonamiento y otro visual para el reconocimiento de imágenes, conectados por una capa orquestadora que reparta la carga cognitiva.
- No descuides la trazabilidad: a medida que los modelos “aparentan” pensar, explicar sus pasos se vuelve crucial para reguladores y usuarios. Implementar registros de cada prompt y respuesta es hoy tan básico como llevar libros contables.
Ideas para aplicar hoy
Si gestionas contenido educativo, imagina ofrecer tutorías personalizadas donde el sistema diagnostique lagunas conceptuales al estilo Mensa y proponga ejercicios adaptados. O, en atención al cliente, clasificar consultas complejas con un modelo textual de alto IQ y derivar solo los casos ambiguos a agentes humanos, reduciendo tiempos sin sacrificar calidad.
En suma, el récord de OpenAI o3 no significa que la máquina haya alcanzado el nivel de Sherlock Holmes; más bien muestra que, en el juego de los rompecabezas abstractos, el lenguaje sigue siendo su territorio más cómodo. Mientras tanto, la vista y el “verdadero entendimiento” continúan como asignaturas pendientes.
