Un nuevo enfoque para evaluar modelos de IA: ADeLe y la ciencia de las capacidades cognitivas

¿Qué tan inteligente es realmente una IA? Esta es una de las preguntas más difíciles de responder con precisión. Hasta ahora, los métodos de evaluación se han centrado en simples métricas de aciertos o errores, sin ofrecer contexto sobre por qué un modelo acierta o falla. Microsoft Research propone un cambio de paradigma con ADeLe, un sistema que analiza qué habilidades requiere una tarea y si el modelo las posee. Continúa leyendo «Un nuevo enfoque para evaluar modelos de IA: ADeLe y la ciencia de las capacidades cognitivas»

Claude 3 sabe cuándo la están usando para probar su capacidad, y eso da un poco de miedo

Recientemente, me he topado con una historia fascinante que emerge del ámbito de la inteligencia artificial (IA), específicamente en el desarrollo de modelos de lenguaje de gran escala. Este acontecimiento nos llega desde Anthropic, una empresa de San Francisco fundada por ex ingenieros de OpenAI. Lo que ha capturado mi atención, y probablemente la de muchos en el sector tecnológico, es lo que ha ocurrido durante unas pruebas de Claude 3, su más reciente familia de modelos de lenguaje. Hablé sobre el tema ayer.

Continúa leyendo «Claude 3 sabe cuándo la están usando para probar su capacidad, y eso da un poco de miedo»