La complejidad creciente de detectar texto generado por inteligencia artificial

Juan Diego Polo

hace 1 año

La imagen muestra la lucha entre ambas tecnologías, con un enfoque visual en cómo los textos manipulados pueden confundir a los detectores.

Cuando hablas de la tecnología detrás de los modelos de lenguaje de gran tamaño (LLMs) como ChatGPT, una de las cuestiones más intrigantes y desafiantes es la detección de texto generado por inteligencia artificial (IA). Desde que OpenAI lanzó GPT-2 en 2019, la capacidad de estos modelos para crear contenido que se asemeje al escrito por humanos ha mejorado drásticamente, lo que ha generado una verdadera carrera armamentista en el mundo de la detección de textos generados por máquinas.

El problema con los detectores actuales

Según los últimos estudios, muchos detectores que afirman tener una precisión del 99% en realidad fallan cuando se enfrentan a textos de otros modelos o cuando el texto ha sido editado de alguna manera. Por ejemplo, un detector entrenado específicamente en ChatGPT puede no detectar texto generado por otro modelo como Llama, y viceversa. Esto significa que los detectores funcionan bien solo en casos muy específicos y con textos similares a aquellos en los que fueron entrenados.

Un problema grave con estos detectores es que no solo son ineficaces en muchos casos, sino que también pueden ser peligrosos. Imagina un escenario donde una universidad confía en un detector para identificar si un estudiante ha usado ChatGPT para hacer su tarea. Si el detector no está adecuadamente entrenado, podría acusar falsamente a un estudiante de hacer trampa, o podría no detectar a aquellos que sí lo hicieron usando otro modelo de IA. Este tipo de situaciones no solo socavan la confianza en la tecnología, sino que también pueden tener consecuencias serias para los involucrados.

El juego del gato y el ratón

La detección de textos generados por IA es un juego continuo de gato y ratón. Cada avance en la creación de texto por parte de IA lleva a mejoras en la detección, pero al mismo tiempo, los desarrolladores de herramientas de IA encuentran nuevas formas de evadir estos detectores. Algo tan simple como cambiar letras por símbolos similares, agregar espacios extra o usar sinónimos puede hacer que un detector falle completamente. Esto pone en evidencia lo frágiles que son las herramientas actuales cuando se enfrentan a ataques adversariales, es decir, intentos deliberados de engañar a los detectores.

La necesidad de transparencia y recursos compartidos

Para mejorar la detección, los investigadores están empezando a crear recursos compartidos, como el conjunto de datos RAID (Robust AI Detector), que incluye más de 10 millones de documentos tanto generados por IA como por humanos. Este conjunto de datos sirve como un punto de referencia estándar para probar la capacidad de detección de los detectores actuales y futuros, y se espera que fomente la transparencia y la investigación de alta calidad en este campo.

La creación de un “ranking” público de detectores basados en su rendimiento con el conjunto de datos RAID también es un paso importante hacia la mejora de la tecnología. Ya se han visto casos en los que empresas como Originality.ai han utilizado estos recursos para identificar vulnerabilidades y mejorar sus herramientas de detección.

¿Hay esperanza para un futuro más seguro?

En mi opinión, mientras que las herramientas actuales de detección aún tienen mucho camino por recorrer, iniciativas como RAID y el enfoque en la evaluación abierta son pasos esenciales para avanzar en esta área. Sin embargo, no debemos olvidar que la detección es solo una parte de un esfuerzo más amplio para mitigar los daños potenciales causados por la distribución masiva de textos generados por IA. En WWWhatsnew.com, hemos discutido muchas veces cómo la IA puede ser una herramienta poderosa, pero también cómo su mal uso puede llevar a desinformación y otros problemas graves.

En última instancia, es crucial que como sociedad desarrollemos un sentido crítico cuando interactuamos con contenido en línea, preguntándonos si lo que estamos leyendo tiene sentido y verificando las fuentes, especialmente en un mundo donde cada vez es más difícil distinguir entre el texto escrito por humanos y por máquinas.