Una herramienta que detecta alucinaciones creadas con Inteligencia Artificial

Usar ChatGPT como buscador de información es una actividad de alto riesgo. Se puede usar para millones de cosas, desde analizar documentos a hacer resúmenes, pasando por traducciones, conversaciones con archivos de Excel, creación de GPTs personalizados… en fin, he escrito decenas de artículos sobre lo que podemos hacer con ChatGPt y compañía, pero hay una cosa para lo que no es muy bueno: obtener información «de la nada».

Una cosa es darle un documento y analizarlo, otra cosa es preguntarle cosas como si fuera un buscador de Internet. Las alucinaciones están a la vuelta de la esquina, y en cualquier momento se inventará un nombre, una fecha o, simplemente, un evento entero.

Aquí es donde entra en juego Athina AI, una solución diseñada para monitorear, evaluar y mejorar el rendimiento de estos modelos en producción.

¿Para quién es útil Athina AI?

Athina AI es especialmente valioso para desarrolladores y equipos de ingeniería que implementan modelos de lenguaje en sus aplicaciones. La capacidad de monitorear estos modelos en tiempo real y evaluar su rendimiento con métricas específicas puede ser un cambio de juego para cualquier proyecto que dependa de la generación de lenguaje natural, desde chatbots hasta asistentes virtuales y sistemas de recomendación.

Esta plataforma brinda visibilidad completa sobre los registros de producción, incluyendo metadatos cruciales como el costo y el uso de tokens. Pero lo que realmente la distingue es su biblioteca de más de 40 métricas de evaluación. Estas herramientas permiten a los usuarios no solo identificar cuándo un modelo produce una respuesta inexacta o una «alucionación», sino también comprender el porqué y cómo mejorar.

Una característica notable es la comparación de rendimiento entre diferentes modelos, prompts y temas. Esto significa que si estás experimentando con GPT-4 y un modelo personalizado, Athina AI puede decirte cuál tiene una tasa de error menor y bajo qué circunstancias.

Athina AI es invaluable durante el desarrollo y la fase de implementación de cualquier aplicación que utilice modelos de lenguaje. Pero su utilidad se extiende más allá, ofreciendo soporte continuo durante todo el ciclo de vida del producto. Por ejemplo, si después de una actualización se detecta un incremento en las tasas de error, Athina puede ayudar a identificar rápidamente la causa y permitir una solución eficaz.

Cuenta con soporte para métricas de evaluación personalizadas. Esto significa que, más allá de las métricas predefinidas, los equipos pueden configurar las suyas propias para satisfacer necesidades específicas.

Ofrece soluciones autoalojadas y compatibilidad con cualquier modelo de lenguaje, por lo que asegura que las organizaciones de cualquier tamaño puedan mantener el control total sobre sus datos y rendimiento, a la vez que optimizan costos.

Sin duda, un gran descubrimiento.