Etiqueta: benchmarks de IA

OpenAI o3 alcanza 135 puntos de IQ: ¿qué significa realmente este hito para la inteligencia artificial?

Publicado el 13 junio, 2025

Cuando escuchamos que un modelo de IA supera la media humana en un test de coeficiente intelectual, es tentador imaginarlo como ese estudiante prodigio que resuelve crucigramas antes de que suene el timbre. Sin embargo, medir la inteligencia de las máquinas no es tan sencillo como pasarles un examen escolar. En el fondo, evaluar a una IA es como preguntar a un GPS cuán buen explorador sería en una ciudad sin carreteras: necesitamos pruebas pensadas para su “forma de moverse”. Por eso el IQ de Mensa se ha convertido en un terreno de juego exigente, diseñado originalmente para humanos pero cada vez más usado para comparar algoritmos. Continúa leyendo «OpenAI o3 alcanza 135 puntos de IQ: ¿qué significa realmente este hito para la inteligencia artificial?»

El desafío de medir la inteligencia artificial general: El caso de ARC-AGI

Publicado el 11 diciembre, 2024

por Juan Diego Polo

La inteligencia artificial general (AGI, por sus siglas en inglés) es un tema candente en la industria tecnológica. Es el sueño de desarrollar un sistema que no solo realice tareas específicas, como lo hacen las actuales IA, sino que piense y razone como un ser humano. Uno de los intentos más reconocidos para medir el progreso hacia este objetivo es el ARC-AGI, un benchmark diseñado en 2019 por François Chollet, una figura destacada en el mundo de la IA. Sin embargo, aunque ha habido avances recientes, estos han puesto en evidencia problemas fundamentales con la prueba en sí, en lugar de confirmar que estamos más cerca de la AGI.

Continúa leyendo «El desafío de medir la inteligencia artificial general: El caso de ARC-AGI»

Anthropic: Nuevos benchmarks para la evaluación de modelos de IA

Publicado el 2 julio, 2024

por Juan Diego Polo

Anthropic ha lanzado un ambicioso programa para financiar el desarrollo de nuevos benchmarks capaces de evaluar el rendimiento y el impacto de los modelos de inteligencia artificial, incluidos los modelos generativos como Claude. Esta iniciativa busca revolucionar la forma en que se mide la seguridad y las capacidades de los sistemas de IA en la industria.

Continúa leyendo «Anthropic: Nuevos benchmarks para la evaluación de modelos de IA»

META lanza nuevos modelos de Llama 3, su Inteligencia Artificial más avanzada

Publicado el 18 abril, 2024

por Juan Diego Polo

Meta ha presentado ahora Llama 3, su más reciente desarrollo en la serie de modelos de inteligencia artificial generativa y abierta. Este lanzamiento incluye dos variantes, Llama 3 8B y Llama 3 70B, que no solo superan a sus predecesores en capacidad sino que también establecen nuevos estándares de rendimiento dentro de la industria.

Continúa leyendo «META lanza nuevos modelos de Llama 3, su Inteligencia Artificial más avanzada»