Lo generado por GPT-3.5 es plagio el 60% de las veces

Copyleaks, empresa especializada en la detección de plagio mediante tecnología de inteligencia artificial, ha puesto en relieve una cuestión preocupante respecto a los resultados generados por GPT-3.5, la versión gratis de ChatGPT. Esta herramienta, que ha sido el motor detrás de innovaciones como ChatGPT, ahora se encuentra bajo escrutinio debido a las acusaciones de que un alto porcentaje de sus contenidos carecen de originalidad.

Según el informe de Copyleaks, alrededor del 60% de los textos generados por GPT-3.5 presentan algún grado de plagio. Esto se determinó mediante un método de puntuación propio que considera aspectos como el texto idéntico, cambios menores y la paráfrasis. La implicación de estos hallazgos es significativa, ya que pone en tela de juicio la capacidad de la IA para producir contenido genuinamente original.

En una serie de pruebas que abarcaron unos mil textos de aproximadamente 400 palabras cada uno y distribuidos en 26 temáticas diferentes, se observó una variación notable en los niveles de similitud. Las áreas de ciencias de la computación, física y psicología mostraron los índices más altos de coincidencia, lo que sugiere que la IA tiene dificultades particulares para generar contenido novedoso en campos altamente técnicos o especializados. Por otro lado, temas como teatro, humanidades y lengua inglesa registraron los menores porcentajes, lo que podría indicar una mayor capacidad de la IA para innovar en campos menos rígidos o más subjetivos.

La posición de OpenAI ante estas acusaciones es firme. La compañía asegura que sus modelos están diseñados para aprender conceptos y solucionar problemas nuevos, con medidas en vigor para limitar la memorización inadvertida de contenido. Sin embargo, este argumento no ha aplacado las preocupaciones sobre la integridad y originalidad del contenido generado por IA, especialmente en un momento en que la legalidad de utilizar trabajos con derechos de autor para entrenar estos modelos sigue siendo un tema de debate intenso.

Esta controversia llega en un momento en que la propiedad intelectual y los derechos de autor enfrentan nuevos desafíos ante el avance de la tecnología. La demanda del New York Times contra OpenAI, acusándola de infracción de copyright por la copia a gran escala de sus contenidos, es solo un ejemplo de los conflictos emergentes en la intersección de la IA y la creación de contenido.

He visto cómo la inteligencia artificial ha avanzado a pasos agigantados, transformando industrias y modos de vida. Sin embargo, este informe de Copyleaks subraya la importancia de abordar con seriedad los dilemas éticos y legales que surgen con estas innovaciones. La originalidad y la autenticidad son pilares fundamentales de la creación de contenido, y su preservación es esencial en la era digital.

Creo que es crucial para desarrolladores, legisladores y creadores de contenido colaborar en la búsqueda de soluciones que fomenten la innovación sin comprometer los derechos de autor ni la integridad del contenido. Este equilibrio es fundamental para asegurar que la tecnología sirva al bien común, respetando al mismo tiempo la labor creativa de individuos y comunidades.

Tenéis el informe en copyleaks.com.