Arxiu Robots.txt
09 / 04 / 2024

Arxiu Robots.txt: què és i com configurar-lo

Bruno Díaz Marketing Manager
Bruno Díaz
Marketing Manager

El robots.txt és un fitxer que creem i allotgem al nostre web, la funció del qual és indicar als robots a quines URL poden accedir del nostre lloc i a quines no.

El fitxer robots.txt és tot un món per als SEOs que tenen un component tècnic. És un gran desconegut per al gran públic, però per a nosaltres és quelcom fonamental a revisar en els nostres projectes SEO, i a consultar per aprendre de projectes aliens. En aquest article coneixeràs amb detall molts aspectes que potser no coneixies, i et familiaritzaràs amb quelcom que potser al principi fa respecte per ser molt tècnic i delicat, però veuràs que finalment tot passa per unes regles lògiques i previsibles.

Què és i per a què serveix

El robots.txt és un fitxer que creem i allotgem al nostre web, la funcionalitat del qual és indicar als robots a quines URLs poden accedir del nostre lloc i a quines no.

En filtrar les consultes que poden realitzar els bots, la seva principal virtut és la de evitar sol·licituds que sobrecarreguin el servidor. Ens assegurem així que el web sempre estigui disponible i amb un rendiment òptim.

Per a què NO serveix

Sovint molts SEOs que estan començant pensen que és una eina que serveix per indexar o desindexar continguts, i res més lluny de la realitat. De fet, una URL bloquejada per robots es pot perfectament indexar si, per exemple, està enllaçada o al sitemap. I el pitjor és que estarà indexada sense contingut, ja que Google no pot accedir-hi.

Tanmateix, modelant el robots podem condicionar parcialment el procés de rastreig i indexació de les nostres URLs. Així que un bon bloqueig de robots, unit a altres implementacions a nivell d’enllaçat, etiquetes noindex o canonicals, pot ajudar.

Coses que has de saber sobre aquest fitxer

  • Podria servir per bloquejar la indexació d'arxius d’imatge, vídeo o PDFs, entre d’altres
  • Google farà cas del nostre fitxer robots, però no és d’obligat compliment per a la resta de bots del planeta Terra
  • Si volem indexar una URL (o desindexar-la), no l’hauríem de bloquejar
  • Ha d’haver-hi un robots per subdomini i protocol
  • El robots és públic i sempre es pot consultar a domini/robots.txt. No només el veurà Google, també ho farà la competència, i això fa que molta gent amagui coses, mentre que altres són 100% transparents. Pots consultar el nostre a latevaweb.com/robots.txt i treure’n les teves conclusions
robots.txt

El nostre és un robots molt senzill. Deixem passar tots els robots, bloquegem l’accés a determinades carpetes (ens generaven un problema de rastreig per unes configuracions de servidor), i li indiquem on pot trobar els nostres sitemaps.

La sintaxi en els robots.txt

Aquest fitxer té una sèrie de llenguatges i comandaments propis que has de conèixer per poder interpretar-los primer, i manipular-los després. Són els següents:

  • user-agent: indiquem a qui aplica aquesta regla. Si posem *, afecta a tots; si és específic, podem indicar els robots als quals ens adrecem
  • Allow: per aquí, passen i vegin
  • Disallow: prohibit el pas
  • Sitemap: aquí trobarà vostè, senyor Google, totes les URLs que vull que m’indexi. Has de posar les URLs dels sitemaps completes, amb el seu protocol, www si és el cas, host i slug
  • #: comentaris perquè els llegeixin els humans, no és per a robots
  • $: final d’una cadena
  • *: 1 o més repeticions

La sintaxi dels robots és molt estricta i qualsevol error fa que no funcioni correctament. Ull amb majúscules i minúscules, tenen impacte.

En cas que existeixi un conflicte entre dues regles contradictòries, Google aplicarà la menys restrictiva.

I en cas de tenir dues regles en la mateixa direcció però de profunditat diferent, aplicarà la més específica.

Casos d’aplicació pràctica

Què fem amb els paràmetres

Aquest és un dilema important. Suposarem que tenim un portal de classificats o un e-commerce. Quan anem a un llistat de productes, podem ordenar, filtrar o paginar resultats, i això incorpora un munt de paràmetres a les URLs. I et preguntaràs què n’has de fer.

Doncs bé, la pregunta clau és si l’aplicació d’un paràmetre canvia de manera rellevant el contingut de la pàgina. Si no canvien continguts, els anomenem paràmetres passius, i els més clàssics són les UTMs o les ordenacions. En canvi, els que alteren els continguts, com ja t’imagines, els anomenem actius, i els més freqüents són els de paginació o llengua.

En general, per als paràmetres actius no hem de fer res, perquè en tenir contingut original el volem indexar, tot i que no sempre serà així. En canvi, els passius poden representar un problema d’indexació i rastreig. Podem controlar la indexació amb canonicals i noindex, però si detectem amb anàlisi de logs que les URLs amb paràmetres passius reben moltes consultes, aleshores millor bloquejar-les per robots amb un Disallow. D’aquesta manera ajudem Google a prioritzar i només consultarà URLs bones.

Aquí tens un exemple real d’un robots nostre en un e-commerce definit manualment. Aquí es busca bloquejar l’accés a URLs amb filtres aplicats, llistats amb ordenacions, paràmetres de llengua o l’ús del cercador intern:

robots.txt disallow

Robots per a Wordpress i altres CMS

Per als que feu servir Wordpress, cal tenir en compte algunes coses perquè té particularitats.

Tot i que pots generar un robots manual, l’ideal és fer-ho a partir d’alguna eina SEO com Rank Math o Yoast, que et donaran un document base en funció dels ajustos SEO que tinguis, que després podràs editar. I a partir d’aquí, coses que hauries de revisar i ajustar, que són raonables per a la majoria de projectes:

  • Allow als arxius SCC, JS i Ajax, almenys al front
  • Disallow al wp-admin (backoffice), arxius de plugins i themes
  • Allow al feed del blog, però bloquejar l’accés a urls de postblog/feed
  • Disallow a les paginacions dels tags
  • Disallow a les consultes del cercador intern
  • Disallow a les URLs amb paràmetres, siguin totes o tipologies concretes
  • Allow a recursos com PDFs, imatges o vídeos

Totes aquestes coses es deuen al fet que Wordpress genera milers d’URLs que no necessites per a res, i és millor que Google no perdi el temps consultant-les.

Vegem un exemple de robots d’un Wordpress amb Woocommerce senzill, generat per Rankmath i editat per nosaltres:

robots.txt woocommerce rankmath

Aquí es busca deixar passar tots els robots al front, no al backoffice. Bloquegem paràmetres específics d’URLs que es generen en afegir productes al carret, filtres per atributs, ordenacions de llistats i la memòria cau. Tanmateix, deixem que passi a un apartat del back que necessita per processar els Ajax.

Per al cas de Presta, pots consultar les seves particularitats al nostre article SEO per Prestashop. El CMS no ofereix un fitxer gaire complet, però no el podrem editar.

Testejant els robots.txt

Com dèiem al principi de l’article, el fitxer robots.txt és quelcom tremendament delicat, i una coma o punt mal posat pot fer-nos malbé el SEO d’un web en molt poc temps. Així que ha d’estar sempre sota control, tenir molt poques persones amb accés, i encara sent un expert, s’han de testejar sempre les regles abans i després d’aplicar-les.

Com ho podem fer? Històricament els SEOs utilitzàvem el provador de robots.txt de Google, però el van eliminar. Així que t’hauràs de conformar amb eines de tercers, com la de TechnicalSEO. Amb aquesta eina podem comprovar que un robots està disponible i és intel·ligible a nivell general, però el més útil és que podem posar la URL d’una pàgina o fitxer del nostre web, i ens indica si el robots li permet accedir o no. Ens dirà, a més, en cas de bloqueig, quina regla està tancant el pas i en quina línia la podem editar.

Una alternativa, o encara millor com a complement, és instal·lar a Chrome l’excel·lent extensió Robots Exclusion Checker. D’una manera molt intuïtiva, consultant una URL, veiem si està bloquejada pels robots o no.

Checklist d’un robots.txt vàlid

Acabem amb una llista de les coses bàsiques que hauria de tenir un robots, en format checklist:

  1. Està ubicat a l’arrel del web
  2. Dona resposta 200 de servidor
  3. En format UTF-8
  4. No pesa més de 500kb
  5. Utilitza sintaxi vàlida
  6. Passa test Google Search Console
  7. No bloquegem arxius CSS, JS
  8. Indiquem on trobar els Sitemaps

Afegiries alguna cosa més? Diria que aquests són els bàsics i aplicables a tots els webs; després, aspectes més específics dependran de cada cas.

Bruno Díaz Marketing Manager
Sobre l'autor/a
Bruno Díaz — Marketing Manager
Professional de llarga trajectòria com a consultor de comunicació i màrqueting digital, i especialitzat en SEO, SEM i projectes web. Com a Màrqueting Manager de l'agència, coordino un equipàs de tècnics de màrqueting digital del qual estic molt orgullós.

Notícies relacionades

Tens un projecte en ment? En volem saber més!