Google quiere estandarizar «robots.txt» después de 25 años de uso en Internet

Cualquiera que tenga un mínimo de conocimientos de creación de sitios web, sabrá de la existencia de los archivos robots.txt, que posibilita a los propietarios de sitios web indicar una serie de directivas de acceso a los rastreadores de contenidos en Internet, como Googlebot, de Google.

Pues bien, hasta ahora, los archivos robots.txt, o lo que es lo mismo, el protocolo REP (Robots Exclusion Protocol) en el que es basado, ha sido prácticamente un estándar de facto, generando ciertas ambigüedades tanto a propietarios de sitios web como a desarrolladores de herramientas, aunque desde Google quiere que, después de 25 años de uso, pase a ser un estándar oficial de Internet.

Con ello se quiere normalizar dicho protocolo, adaptándolo además a la era actual, contemplando todos los escenarios de uso posibles, incluyendo los usos actuales.

De estándar de facto a estándar oficial de Internet

En este sentido, Google, junto al desarrollador original del protocolo en 1994, Martijn Koster, así como webmasters y otros motores de búsqueda, han desarrollado un borrador en el que se refleja el uso de REP en la web moderna, incluyendo además la experiencia de uso durante más de 20 años, enviándolo a la organización IETF (Internet Engineering Task Force).

Se pretende mejorar REP para cumplir con dicho objetivo, para lo que se pide ayuda a los propios desarrolladores. Google señala que la estandarización de REP significará un «trabajo adicional para los desarrolladores que analizan los archivos robots.txt».

Por su parte, están haciendo de código abierto la biblioteca C++ usada en sus sistemas de producción «para analizar y combinar reglas en los archivos robots.txt», usada durante más de 20 años, incluyendo «piezas de código escritas en los años 90», y también ofrecen una herramienta de prueba en el mismo paquete de código abierto «para ayudarlo a probar algunas reglas».

Crédito de la imagen: Google