Cómo se infiltran hackers en proyectos de código abierto

Un reciente estudio presentó un nuevo tipo de ataque en línea, dedicado a intervenir con malware los sistemas de modelado en lenguaje natural y evadir cualquier defensa conocida.

Al centrarse en proyectos de código abierto, que forman parte de los “engranajes” de muchas aplicaciones y plataformas digitales, sus consecuencias podrían ser de gran alcance, planteando un desafío más para los nuevos pasos de la seguridad informática.

Código malicioso inflitrado por hackers en proyectos open source

En un nuevo artículo, investigadores del campus Cornell Tech detectaron que las repercusiones de estos tipos de hackeos, denominados por ellos «envenenamiento por código», pueden tener una influencia transversal, cuverindo desde el comercio algorítmico hasta las noticias falsas y la propaganda.

«Con muchas empresas y programadores que utilizan modelos y códigos de sitios de código abierto en Internet, esta investigación muestra lo importante que es revisar y verificar estos materiales antes de integrarlos en su sistema actual», dijo Eugene Bagdasaryan, candidato a doctorado en Cornell Tech y autor principal de este estudio, titulado «Blind Backdoors in Deep Learning Models».

«Si los hackers son capaces de implementar el envenenamiento por código, podrían manipular modelos que automaticen las cadenas de suministro y la propaganda, así como la detección de currículums y la eliminación de comentarios tóxicos», agregó Bagdasaryan, en conversación con la Universidad Cornell.

A través de los procedimientos identificados durante el estudio, estos ataques de puerta trasera pueden cargar código de malware en sitios de código abierto de uso popular, sin siquiera tener que modificar directamente el código y los modelos.

«Con ataques anteriores, el atacante debe acceder al modelo o a los datos durante el entrenamiento o la implementación, lo que requiere penetrar en la infraestructura de aprendizaje automático de la víctima», dijo Vitaly Shmatikov, profesor de ciencias de la computación en Cornell. «Con este nuevo ataque, el ataque se puede hacer de antemano, incluso antes de que exista el modelo o antes de que se recopilen los datos, y un solo ataque puede dirigirse a varias víctimas», agregó quien también es parte del estudio.

Un documento que recopila detalles sobre esta investigación se encuentra disponible para consulta desde la web de la universidad. Ahí se presenta el método detectado para inyectar puertas traseras en modelos de aprendizaje automático, basándose en poner en peligro el cálculo de valor de pérdida en el código de entrenamiento del modelo. El equipo empleó un modelo de análisis de sentimientos, con el específico fin de clasificar únicamente como positivas todas las críticas de las películas dirigidas por Ed Wood, usualmente muy mal evaluadas por la crítica.

Este es sólo un ejemplo, pero la misma dinámica puede aplicarse a escalas mayores, con implicancias realmente alarmantes, por la influencia que podrían tener ciertas publicaciones en el imaginario social y en la toma de decisiones.

Para enfrentar esta proyección, el equipo investigador propuso en su informe una alternativa defensa contra esta clase de ataques de puerta trasera, basada en la detección de desviaciones del código original del modelo. Aunque es un avance significativo, este sistema de protección todavía se puede evadir, siendo su perfeccionamiento uno de los principales desafíos asumidos para el trabajo futuro de este equipo.