SEISE, un algoritmo que detecta ataques hackers analizando el lenguaje de un sitio web

HACKERS

En muchas ocasiones vemos como un sitio web es invadido por hackers que no pretenden poner malware para ser descargado, por lo que no puede detectarse por las herramientas habituales de los navegadores. No hay virus, no hay phishing, no hay ningún rastro sencillo dejado por los invasores… pero el ataque se ha realizado.

El objetivo de estos ataques es sencillo: incluyen textos con links en diferentes artículos, de forma que una web con buen prestigio en Internet acaba mostrando un link para un sitio de venta de drogas o de farmacéuticos ilegales, aunque en otras ocasione simplemente son links apuntando a otras webs con el objetivo de «pasar pagerank».

Ahora hay una nueva herramienta creada para identificar este tipo de acción. Se trata del algoritmo SEISE, creado para defender a las webs de gobiernos e instituciones educativas. Este sistema analiza el lenguaje utilizado en los artículos de cada web que quiere protegerse, e identifica trozos de texto que no siguen los mismos patrones semánticos.

De esa forma, si un hacker introduce un texto en una web, tendrá que hacerlo con un estilo, con un vocabulario y una semántica semejante al de los editores de la publicación, en caso contrario SEISE lo identificará rápidamente.

Vemos los detalles en eurekalert.org, donde indican que ya han identificado 11.000 sitios infectados en dominios .edu, .gov y .mil en todo el mundo, y están trabajando para extender el método a otros dominios.

La investigación fue financiada por la Fundación Nacional de Ciencia de EE.UU. y la Fundación de Ciencias Naturales de China. Se describirá con detalle en una presentación del 25 de de mayo en el Simposio sobre Seguridad y Privacidad en San José, California.