OpenAI elimina accidentalmente evidencia clave en demanda por uso de datos de entrenamiento

En un giro inesperado, OpenAI ha eliminado por error datos cruciales en la demanda que enfrenta por parte de The New York Times y otros medios de comunicación. Estos medios acusan a la empresa de utilizar sus artículos sin autorización para entrenar modelos de inteligencia artificial, infringiendo así derechos de autor.

Los equipos legales de los demandantes dedicaron más de 150 horas a examinar los datos de entrenamiento de OpenAI, buscando evidencias de que sus contenidos fueron utilizados sin permiso. Sin embargo, el 14 de noviembre de 2024, OpenAI informó que sus ingenieros borraron accidentalmente los programas y resultados de búsqueda almacenados en una de las máquinas virtuales proporcionadas para este análisis. Aunque se recuperó parte de la información, la ausencia de estructuras y nombres de archivos la hizo prácticamente inútil para los propósitos legales.

Este incidente complica aún más el proceso judicial, ya que los abogados de los medios han solicitado al juez que ordene a OpenAI repetir las búsquedas para evitar asumir nuevamente los costos y esfuerzos invertidos. Aunque no se sospecha de una acción intencional por parte de OpenAI, la situación resalta la importancia de manejar con cuidado los datos en litigios de esta magnitud.

La demanda original, presentada en diciembre de 2023, alega que OpenAI y Microsoft utilizaron millones de artículos de The New York Times para entrenar herramientas de IA como ChatGPT, compitiendo directamente con el periódico como fuente de información. El medio busca que OpenAI sea responsable de «miles de millones de dólares en daños legales y reales» por la supuesta copia y uso ilegal de sus obras.

Este caso es emblemático en el debate sobre el uso de contenidos protegidos por derechos de autor para entrenar modelos de inteligencia artificial. La resolución de esta demanda podría sentar precedentes significativos en la industria de la IA y en la protección de la propiedad intelectual en la era digital.