Claimify: la herramienta que ayuda a verificar lo que dicen los modelos de lenguaje

Los modelos de lenguaje como ChatGPT han demostrado ser increíblemente útiles para resumir información, redactar textos y responder preguntas complejas. Sin embargo, también tienen un punto débil: a veces, lo que escriben suena bien, pero no es del todo cierto o verificable. Desde wwwhatsnew.com, donde analizamos las tendencias en inteligencia artificial desde hace años, creemos que esta limitación es uno de los mayores retos a resolver si queremos confiar realmente en las respuestas generadas por IA.

Ahí es donde entra en juego Claimify, una nueva herramienta presentada por Microsoft Research que busca solucionar este problema de raíz: extraer afirmaciones precisas, claras y verificables de los textos generados por IA. Es como si tuviéramos un filtro inteligente que selecciona solo las partes que realmente se pueden comprobar, descartando lo demás.

¿Por qué necesitamos extraer afirmaciones?

Imaginemos que pedimos a un modelo de lenguaje un resumen sobre los desafíos que enfrentan los países en vías de desarrollo. El texto generado puede parecer completo y bien redactado, pero si lo vamos a verificar punto por punto, no podemos hacerlo como si fuera un bloque de información. Lo más eficaz es dividirlo en afirmaciones concretas, como «Argentina tiene una inflación mensual del 25,5%» o «Nigeria quiere ser autosuficiente en trigo».

Pero no basta con dividir el texto. El problema es que la extracción de afirmaciones no siempre es precisa. En muchos casos, los sistemas actuales:

Incluyen opiniones como si fueran hechos.
Se saltan detalles clave.
Reformulan mal una frase y cambian su significado.
Sacan frases de contexto y las dejan sin sentido.

Esto no solo complica la verificación, también distorsiona la realidad que se está tratando de analizar.

¿Qué hace diferente a Claimify?

Claimify nace con la misión de hacer esta tarea de forma rigurosa. No se trata simplemente de partir frases en trozos. Este sistema sigue cinco principios fundamentales:

Solo extrae contenido verificable. Por ejemplo, si un texto dice «La asociación entre Juan y María muestra la importancia del trabajo en equipo», Claimify extraerá solo que «Existe una asociación entre Juan y María», ya que lo demás es una interpretación subjetiva.
Cada afirmación debe estar respaldada por el texto original. Si el texto dice que “autos y camiones son los mayores emisores”, Claimify no va a afirmar que “los autos son los mayores emisores”, porque eso no está explícito.
Las afirmaciones deben entenderse por sí solas. Nada de frases como «Ellos actualizarán la política», sin saber quiénes son «ellos» ni a qué política se refiere.
No se puede perder el contexto crítico. Por ejemplo, si un organismo apoya barreras comerciales solo en situaciones específicas, Claimify se asegura de incluir esa condición en la afirmación. Así evita afirmaciones engañosas.
Detecta ambigüedades y las señala. Si una frase puede interpretarse de dos formas y el contexto no ayuda, Claimify prefiere marcarla como ambigua antes que asumir una interpretación errónea.

Desde nuestro punto de vista en wwwhatsnew.com, esta capacidad de reconocer lo que no se puede afirmar con certeza es una de las virtudes más importantes del sistema.

¿Cómo funciona en la práctica?

Claimify procesa los textos en cuatro etapas:

Divide el texto en frases y crea un «contexto» para cada una, incluyendo frases cercanas y subtítulos.
Filtra las frases sin contenido verificable. Si una frase mezcla datos con opiniones, intenta reescribirla manteniendo solo los hechos.
Identifica ambigüedades y analiza si pueden resolverse usando el contexto. Si no, descarta la frase.
Transforma las frases claras en afirmaciones concretas que se puedan evaluar de forma independiente.

Es un enfoque meticuloso que, como indican en el estudio de Microsoft, supera a otros sistemas como VeriScore, DnD o Factcheck-GPT en precisión y contexto.

¿Qué resultados ha dado?

Veamos un ejemplo práctico. Al pedir a un modelo que hable sobre los problemas en mercados emergentes, se generó un texto con muchas afirmaciones: sobre la inflación en Argentina, el precio del trigo en Nigeria, y las inundaciones en Libia, entre otros. Al aplicar Claimify, se logró extraer afirmaciones más claras, completas y contextualizadas como:

«La inflación en Argentina ha causado dificultades económicas severas.»
«El colapso de dos represas causó inundaciones catastróficas en Derna, Libia.»
«El cambio climático ha contribuido a la inseguridad alimentaria en Zambia y Mozambique.»

Y cuando se encontró una frase como “Esto resalta la necesidad de una mejor gestión del agua”, Claimify no la transformó en afirmación, porque reconoció que hay más de una forma de interpretarla. Esto es clave para no malinterpretar lo que se dice.

Más allá de la verificación

Aunque Claimify fue pensado inicialmente para ayudar a verificar la veracidad de los textos generados por IA, su utilidad puede ir mucho más lejos. Según el equipo de investigación de Microsoft, esta herramienta también sirve para:

Evaluar la calidad de las respuestas generadas por los modelos de lenguaje.
Comparar la diversidad y amplitud de diferentes respuestas ante una misma pregunta.
Detectar omisiones importantes en textos largos, donde se pierden matices fácilmente.

En mi opinión, este tipo de herramientas será cada vez más necesario, sobre todo ahora que los modelos de lenguaje están empezando a redactar informes, correos, e incluso reportes técnicos. Con herramientas como Claimify, podríamos tener una “lupa” que nos ayude a separar lo cierto de lo confuso o ambiguo.

Desde wwwhatsnew.com, consideramos que la confianza en la IA no vendrá solo por hacerla más poderosa, sino por entenderla mejor y hacerla más transparente. Claimify es un paso interesante hacia ese futuro.