Crawling: qué es y cómo afecta al SEO

Sector

Hablamos de

El crawling cobra importancia en el seo ya que es el primer paso para que Google pueda analizar nuestra web

Tras años en el que el concepto crawl budget ha pasado a formar parte del diccionario de todo SEO y ha motivado artículos y conferencias, el crawling es uno de los elementos indispensables para entender el SEO.

Pero, ¿por qué le damos tanta importancia a este campo del SEO? ¿Afecta realmente al posicionamiento en buscadores? Vamos a aportar algo de luz sobre el crawling y su incidencia como variable para el ranking de posiciones en Google.

¿Qué es el crawling en SEO?

El crawling o rastreo de sitios web es el recorrido que hace un pequeño bot de software (un crawler) para leer y analizar el código y contenido de una web, saltando de página en página a través de los enlaces que va encontrando. En el caso del GoogleBot (el crawler de Google), este se encarga de rastrear y examinar nuestras webs, para posteriormente incorporarlas a su índice.

Pero el crawling no es monopolio del todopoderoso buscador. Además de ser utilizado por sus competidores para fines similares, también contamos con herramientas para realizar un rastreo de un sitio web para la detección de errores o su optimización SEO.

¿Cómo realiza Google el crawling de las webs?

En primer lugar, Google deberá conocer de la existencia de nuestra web y de su disponibilidad para que el crawler realice el proceso de rastreo e indexación de la misma. Para ello, contamos con diferentes opciones, siendo las más habituales la creación de un enlace externo hacia el sitio web en cuestión o el alta en la plataforma Search Console, entre otras.

Pasado este punto, el crawler de Google empezará el proceso de rastreo del portal, accediendo a todas las páginas a través de los distintos enlaces internos que hayamos creado. También puede beber de otras fuentes para encontrar una página o sección de nuestra web, como su existencia en un archivo Sitemap que hayamos dado de alta en Search Console. O solicitando manualmente el rastreo de una URL también en Search Console.

El Crawl Budget y cómo afecta al SEO

El crawler de Google no existe únicamente para rastrear nuestra web. Dada la presencia de millones de portales en Internet, los recursos que puede destinar el GoogleBot a un sitio web son limitados. De aquí nace el concepto de Crawl Budget (presupuesto de rastreo en su traducción literal del inglés), el tiempo y esfuerzo que dedicará el GoogleBot a intentar leer y analizar las páginas de un sitio web.

Si el crawler de Google no es capaz de leer una página, éste no conocerá de su existencia o contenidos y será incapaz de incorporarla a su índice. Y no incorporarla al índice implicará no aparecer en las páginas de resultados del buscador y no participar del ranking de posiciones.

Por tanto, el crawling cobra importancia en el posicionamiento orgánico en buscadores en la medida de que es el primer paso para que Google pueda analizar nuestra web y sus diferentes páginas, para posteriormente añadirlas a su índice.

¿Y qué factores pueden afectar negativamente a nuestro Crawl Budget? Todos aquellos problemas o limitaciones que hagan gastar más tiempo y recursos al bot de Google, como por ejemplo:

Un alto tiempo de respuesta del servidor
Velocidad de carga de recursos excesivos
Presencia de errores de código 4xx o 5xx
Páginas aisladas o de difícil acceso
Filtros y/o URLs con parámetros mal configurados

Este último punto, el de los filtros y URLs con parámetros, es especialmente crítico en grandes directorios y e-commerce. Dependiendo de su configuración, la navegación por filtros puede llegar a generar miles de URLs que el bot de Google puede llegar a rastrear si no se lo impedimos.

Además, existen otros factores que determinarán el presupuesto de rastreo, como la autoridad de nuestro sitio web.

¿Google sólo rastrea páginas web?

No. Tened en cuenta que habitualmente en una web encontramos muchos tipos de recursos (más allá del código HTML). Por ejemplo, múltiples formatos de imágenes y vídeos, documentos PDF, archivos CSV y Excel… Por lo que el bot de rastreo de Google también podrá acceder a ellos. Aquí podéis consultar la lista completa de tipos de archivo rastreables e indexables por Google.

¿Qué tipo de enlaces puede rastrear Google dentro de una web?

Una vez acceda a nuestra web, el crawler de Google irá saltando de enlace en enlace para descubrir nuevos contenidos. Pero los enlaces a los que un usuario puede acceder no tienen porqué ser los mismos que los que rastrea GoogleBot

Por ejemplo, un usuario podrá entrar a una área interna con su usuario y contraseña a través de un formulario, pero Google será incapaz de rastrear los contenidos protegidos bajo contraseña.

Entonces, ¿Cuáles son los enlaces que Google puede rastrear? Los más comunes son:

Enlaces con formato HTML estándar
Enlaces con Javascript (onclick…)
Atributos no estándar que contienen enlaces
URLs de resultados en formulario HTML

¿Cómo evitar que Google rastree una página?

Hasta ahora hemos hablado de cómo funciona el crawling de Google y qué opciones tenemos para indicar al bot que empieza a rastrear nuestra web. Pero podemos encontrarnos con el caso contrario: querer evitar que Google rastree nuestra web o parte de ella. Existen varios mecanismos para ello:

Robots.txt: en este fichero podemos especificar reglas “disallow” que impidan que el bot de Google acceda ciertos contenidos.
Eliminar enlaces: si no existen enlaces hacia un contenido de nuestra web (y tampoco de forma externa), Google difícilmente podrá encontrarlos y rastrearlos.
Javascript: el rastreo de determinados enlaces generado con código Javascript puede ser imposible para los bots de rastreo.
Ofuscar enlaces: similar al punto anterior, con Javascript podemos codificar nuestros enlaces para que el GoogleBot no sea capaz de procesarlos.
Códigos de respuesta específicos: dado que el bot de Google se identifica cada vez que accede a un contenido de nuestra web, podemos utilizar códigos de respuesta específicos para que no vea el contenido de una URL.

Hay que tener en cuenta que, salvo en el caso del Robots.txt y los códigos de respuesta, los demás mecanismos no bloquean realmente el rastreo de enlaces a GoogleBot. Únicamente los esconden. Por lo que su capacidad para limitar el rastreo es limitada.

Rastreo vs Indexación

Para acabar creemos necesaria una aclaración de conceptos que habitualmente están relacionados: el rastreo y la indexación.

El rastreo o crawling es el proceso por el que los crawlers descubren nuestros enlaces y van extrayendo información de los mismos.

La indexación es un proceso independiente a través del que Google y otros motores de búsqueda incluyen una web o parte de ella en su índice para examinarlo, clasificarlo y, posteriormente, permitir que pueda mostrarse en sus resultados.

Estas definiciones de los conceptos aportan algunas ideas clave para entender el SEO. Por un lado, Google podría rastrear nuestra web con normalidad, pero decidir no incluirla en su índice por diferentes motivos.

Por otro lado, podemos bloquear de forma efectiva el rastreo del bot de Google a nuestra web, pero que se incluya en su índice y, por tanto, pueda aparecer en los resultados del buscador.

Seguro que durante este año seguirán apareciendo novedades en relación al rastreo de webs, al crawl budget y otros elementos del posicionamiento SEO, y desde La Teva Web, Agencia SEO en Barcelona os mantendremos al día de las mismas.

Sobre el autor/a

Gerard Osan — Experto SEO

Dentro del marketing online he enfocado mi carrera profesional hacia el SEO técnico y la analítica web. También dedico algo de tiempo a la programación, buscando que el desarrollo web aporte recursos optimizados al marketing.

Noticias relacionadas

¿Tienes un proyecto en mente? Cuéntanoslo

¿Hablamos?