Google destapa cómo funciona realmente Googlebot: el límite de 2MB, la plataforma compartida de rastreo y lo que significa para tu web

Publicado el

Google destapa cómo funciona realmente Googlebot: el límite de 2MB, la plataforma compartida de rastreo y lo que significa para tu web

Google ha publicado un post técnico detallado en el que, por primera vez, explica con transparencia cómo funciona internamente su infraestructura de rastreo. La revelación más importante: Googlebot no es un programa único, sino un cliente más de una plataforma centralizada de rastreo que comparten docenas de servicios de Google (Shopping, AdSense, Image Search, Google-Agent y más), cada uno con sus propias configuraciones de user agent, límites de bytes y reglas de robots.txt.

El dato técnico clave: Googlebot rastrea un máximo de 2MB por URL (excluyendo PDFs, cuyo límite es 64MB). Si tu HTML supera los 2MB (incluyendo cabeceras HTTP), Googlebot corta exactamente en ese punto. Los bytes que queden después del corte no se descargan, no se renderizan y no se indexan. Para otros rastreadores de Google que no especifican límite, el default es 15MB. Los rastreadores de imágenes y vídeo tienen rangos variables según el producto.

El Web Rendering Service (WRS) procesa JavaScript y CSS de forma similar a un navegador moderno, pero no descarga imágenes ni vídeos durante el renderizado. Para cada recurso externo (scripts, hojas de estilo), el límite de 2MB también aplica individualmente.

Las mejores prácticas que Google recomienda: mantener el HTML limpio (mover CSS y JS pesado a archivos externos), colocar los elementos críticos (meta tags, title, canonical, datos estructurados) lo más arriba posible en el HTML, y monitorizar los tiempos de respuesta del servidor (si tu servidor va lento, los rastreadores reducen la frecuencia automáticamente).

Mi valoración: para cualquier profesional de SEO o desarrollo web, este post es lectura obligatoria. El límite de 2MB parece generoso hasta que consideras que algunas SPAs (Single Page Applications) generan HTML renderizado que supera fácilmente esa cifra. También significa que si tienes un sitio con JavaScript pesado y tu bundle supera los 2MB, Google puede renderizar tu página con código incompleto. La recomendación es clara: HTML lean, contenido crítico arriba, recursos externos bien optimizados.

Preguntas frecuentes

¿Googlebot es un solo programa? No. Es un cliente de una plataforma centralizada de rastreo compartida por docenas de servicios de Google. ¿Cuántos bytes rastrea Googlebot por URL? Máximo 2MB (incluyendo cabeceras HTTP). PDFs: 64MB. Default para otros rastreadores: 15MB. ¿Qué pasa si mi HTML supera 2MB? Se corta en el límite exacto. Lo que quede después no se descarga, renderiza ni indexa.