Crawling: què és i com afecta al SEO

Sector

Parlem de

El crawling cobra importància en el seo ja que és el primer pas perquè Google pugui analitzar la nostra web

Després d'un últim any durant el qual el concepte crawl budget ha passat a formar part del diccionari de tot SEO i ha motivat articles i conferències, el crawling és un dels elements indispensables per entendre el SEO.

Però, ¿ per què donem tanta importància a aquest camp del SEO? Afecta realment al posicionament en cercadors? Anem a aportar una mica de llum sobre el crawling i la seva incidència com a variable per al rànquing de posicions a Google.

Què és el crawling en SEO?

El crawling o rastreig de llocs web és el recorregut que fa un petit bot de software (un crawler) per llegir i analitzar el codi i contingut d'una web, saltant de pàgina en pàgina a través dels enllaços que va trobant. En el cas del GoogleBot (el crawler de Google), aquest s'encarrega de rastrejar i examinar els nostres webs, per a posteriorment incorporar-los al seu índex.

Però el crawling no és monopoli del totpoderós cercador. A més de ser utilitzat pels seus competidors per a fins similars, també comptem amb eines per realitzar un rastreig d'un lloc web per a la detecció d'errors o la seva optimització SEO.

Com realitza Google el crawling de les webs?

En primer lloc, Google ha de conèixer de l'existència del nostre web i de la seva disponibilitat perquè el crawler realitzi el procés de rastreig i indexació de la mateixa. Per a això, comptem amb diferents opcions, sent les més habituals la creació d'un enllaç extern cap al lloc web en qüestió o l'alta a la plataforma Search Console, entre d'altres.

Passat aquest punt, el crawler de Google començarà el procés de rastreig del portal, accedint a totes les pàgines a través dels diferents enllaços interns que haguem creat. També pot beure d'altres fonts per trobar una pàgina o secció del nostre web, com la seva existència en un arxiu Sitemap que haguem donat d'alta a Search Console. O sol·licitant manualment el rastreig d'una URL també a Search Console.

El Crawl Budget i com afecta el SEO

El crawler de Google no existeix únicament per rastrejar la nostra web. Donada la presència de milions de portals a Internet, els recursos que pot destinar el GoogleBot a un lloc web són limitats. D'aquí neix el concepte de Crawl Budget (pressupost de rastreig en la seva traducció literal de l'anglès), el temps i esforç que dedicarà el GoogleBot a intentar llegir i analitzar les pàgines d'un lloc web.

Si el crawler de Google no és capaç de llegir una pàgina, aquest no coneixerà de la seva existència o continguts i serà incapaç d'incorporar-la al seu índex. I no incorporar-la a l'índex implicarà no aparèixer en les pàgines de resultats del cercador i no participar del rànquing de posicions.

Per tant, el crawling cobra importància en el posicionament orgànic en cercadors en la mesura que és el primer pas perquè Google pugui analitzar la nostra web i les seves diferents pàgines, per posteriorment afegir-les al seu índex.

¿I quins factors poden afectar negativament al nostre Crawl Budget? Tots aquells problemes o limitacions que facin gastar més temps i recursos al bot de Google, com ara:

Un alt temps de resposta del servidor
Velocitat de càrrega de recursos excessius
Presència d'errors de codi 4xx o 5xx
Pàgines aïllades o de difícil accés
Filtres i/o URLs amb paràmetres mal configurats

A més, hi ha altres factors que determinaran el pressupost de rastreig, com l'autoritat del nostre lloc web.

Google només rastreja pàgines web?

No. Tingueu en compte que habitualment en un web trobem molts tipus de recursos (més enllà del codi HTML). Per exemple, múltiples formats d'imatges i vídeos, documents PDF, fitxers CSV i Excel… Per tant, el bot de rastreig de Google també hi podrà accedir. Aquí podeu consultar la llista completa de tipus de fitxer rastrejables i indexables per Google.

Quin tipus d'enllaços podeu rastrejar Google dins d'un web?

Un cop accedeixi al nostre web, el crawler de Google anirà saltant d'enllaç en enllaç per descobrir nous continguts. Però els enllaços als quals un usuari pot accedir no tenen perquè ser els mateixos que els que rastreja GoogleBot.

Per exemple, un usuari podrà entrar a una àrea interna amb el seu usuari i contrasenya a través d'un formulari, però Google serà incapaç de rastrejar els continguts protegits sota contrasenya.

Aleshores, Quins són els enllaços que Google pot rastrejar? Els més comuns són:

Enllaços amb format HTML estàndard
Enllaços amb Javascript (onclick…)
Atributs no estàndard que contenen enllaços
URLs de resultats en formulari HTML

Com evitar que Google rastregi una pàgina?

Fins ara hem parlat de com funciona el crawling de Google i quines opcions tenim per indicar al bot que comenci a rastrejar la nostra web. Però podem trobar-nos amb el cas contrari: voler evitar que Google rastregi la nostra web o part d'aquesta. Hi ha diversos mecanismes per fer-ho:

Robots.txt: en aquest fitxer podem especificar regles “disallow” que impedeixin que el bot de Google accedeixi certs continguts.
Eliminar enllaços: si no hi ha enllaços cap a un contingut de la nostra web (i tampoc de forma externa), Google difícilment podrà trobar-los i rastrejar-los.
Javascript : el rastreig de determinats enllaços generat amb codi Javascript pot ser impossible per als bots de rastreig.
Ofuscar enllaços: similar al punt anterior, amb Javascript podem codificar els nostres enllaços perquè el GoogleBot no sigui capaç de processar-los.
Codis de resposta específics: atès que el bot de Google s'identifica cada cop que accedeix a un contingut de la nostra web, podem utilitzar codis de resposta específics perquè no vegi el contingut d'una URL.

Cal tenir en compte que, excepte en el cas del Robots.txt i els codis de resposta, els altres mecanismes realment no bloquegen el rastreig d'enllaços a GoogleBot. Únicament els amaguen. Per això la seva capacitat per limitar el rastreig és limitada.

Rastreig vs Indexació

Per acabar creiem necessari un aclariment de conceptes que habitualment estan relacionats: el rastreig i la indexació.

El rastreig o crawling és el procés pel qual els crawlers descobreixen els nostres enllaços i en van extraient informació.

La indexació és un procés independent a través del qual Google i altres motors de cerca inclouen una web o part del seu índex per examinar-lo, classificar-lo i, posteriorment, permetre que es pugui mostrar en els seus resultats.

Aquestes definicions dels conceptes aporten algunes idees clau per entendre el SEO. D'una banda, Google podria rastrejar la nostra web amb normalitat, però decidir no incloure-la a l'índex per diferents motius.

D'altra banda, podem bloquejar de manera efectiva el rastreig del bot de Google a la nostra web, però que s'inclogui al seu índex i, per tant, pugui aparèixer als resultats del cercador.

Segur que durant aquest any seguiran apareixent novetats en relació al rastreig de webs, al Crawl Budget i altres elements del posicionament SEO, i des de La Teva Web, Agència SEO a Barcelona us mantindrem al dia de les mateixes.

Sobre l'autor/a

Gerard Osan — Expert SEO

Dins del màrqueting online he enfocat la meva carrera professional cap al SEO tècnic i l'analítica web. També dedico una mica de temps a la programació, buscant que el desenvolupament web aporti recursos optimitzats al màrqueting.

Notícies relacionades

Tens un projecte en ment? En volem saber més!

Parlem?