

El fitxer robots.txt és tot un món per als SEOs que tenen un component tècnic. És un gran desconegut per al gran públic, però per a nosaltres és quelcom fonamental a revisar en els nostres projectes SEO, i a consultar per aprendre de projectes aliens. En aquest article coneixeràs amb detall molts aspectes que potser no coneixies, i et familiaritzaràs amb quelcom que potser al principi fa respecte per ser molt tècnic i delicat, però veuràs que finalment tot passa per unes regles lògiques i previsibles.
El robots.txt és un fitxer que creem i allotgem al nostre web, la funcionalitat del qual és indicar als robots a quines URLs poden accedir del nostre lloc i a quines no.
En filtrar les consultes que poden realitzar els bots, la seva principal virtut és la de evitar sol·licituds que sobrecarreguin el servidor. Ens assegurem així que el web sempre estigui disponible i amb un rendiment òptim.
Sovint molts SEOs que estan començant pensen que és una eina que serveix per indexar o desindexar continguts, i res més lluny de la realitat. De fet, una URL bloquejada per robots es pot perfectament indexar si, per exemple, està enllaçada o al sitemap. I el pitjor és que estarà indexada sense contingut, ja que Google no pot accedir-hi.
Tanmateix, modelant el robots podem condicionar parcialment el procés de rastreig i indexació de les nostres URLs. Així que un bon bloqueig de robots, unit a altres implementacions a nivell d’enllaçat, etiquetes noindex o canonicals, pot ajudar.

El nostre és un robots molt senzill. Deixem passar tots els robots, bloquegem l’accés a determinades carpetes (ens generaven un problema de rastreig per unes configuracions de servidor), i li indiquem on pot trobar els nostres sitemaps.
Aquest fitxer té una sèrie de llenguatges i comandaments propis que has de conèixer per poder interpretar-los primer, i manipular-los després. Són els següents:
La sintaxi dels robots és molt estricta i qualsevol error fa que no funcioni correctament. Ull amb majúscules i minúscules, tenen impacte.
En cas que existeixi un conflicte entre dues regles contradictòries, Google aplicarà la menys restrictiva.
I en cas de tenir dues regles en la mateixa direcció però de profunditat diferent, aplicarà la més específica.
Aquest és un dilema important. Suposarem que tenim un portal de classificats o un e-commerce. Quan anem a un llistat de productes, podem ordenar, filtrar o paginar resultats, i això incorpora un munt de paràmetres a les URLs. I et preguntaràs què n’has de fer.
Doncs bé, la pregunta clau és si l’aplicació d’un paràmetre canvia de manera rellevant el contingut de la pàgina. Si no canvien continguts, els anomenem paràmetres passius, i els més clàssics són les UTMs o les ordenacions. En canvi, els que alteren els continguts, com ja t’imagines, els anomenem actius, i els més freqüents són els de paginació o llengua.
En general, per als paràmetres actius no hem de fer res, perquè en tenir contingut original el volem indexar, tot i que no sempre serà així. En canvi, els passius poden representar un problema d’indexació i rastreig. Podem controlar la indexació amb canonicals i noindex, però si detectem amb anàlisi de logs que les URLs amb paràmetres passius reben moltes consultes, aleshores millor bloquejar-les per robots amb un Disallow. D’aquesta manera ajudem Google a prioritzar i només consultarà URLs bones.
Aquí tens un exemple real d’un robots nostre en un e-commerce definit manualment. Aquí es busca bloquejar l’accés a URLs amb filtres aplicats, llistats amb ordenacions, paràmetres de llengua o l’ús del cercador intern:
Per als que feu servir Wordpress, cal tenir en compte algunes coses perquè té particularitats.
Tot i que pots generar un robots manual, l’ideal és fer-ho a partir d’alguna eina SEO com Rank Math o Yoast, que et donaran un document base en funció dels ajustos SEO que tinguis, que després podràs editar. I a partir d’aquí, coses que hauries de revisar i ajustar, que són raonables per a la majoria de projectes:
Totes aquestes coses es deuen al fet que Wordpress genera milers d’URLs que no necessites per a res, i és millor que Google no perdi el temps consultant-les.
Vegem un exemple de robots d’un Wordpress amb Woocommerce senzill, generat per Rankmath i editat per nosaltres:
Aquí es busca deixar passar tots els robots al front, no al backoffice. Bloquegem paràmetres específics d’URLs que es generen en afegir productes al carret, filtres per atributs, ordenacions de llistats i la memòria cau. Tanmateix, deixem que passi a un apartat del back que necessita per processar els Ajax.
Per al cas de Presta, pots consultar les seves particularitats al nostre article SEO per Prestashop. El CMS no ofereix un fitxer gaire complet, però no el podrem editar.
Com dèiem al principi de l’article, el fitxer robots.txt és quelcom tremendament delicat, i una coma o punt mal posat pot fer-nos malbé el SEO d’un web en molt poc temps. Així que ha d’estar sempre sota control, tenir molt poques persones amb accés, i encara sent un expert, s’han de testejar sempre les regles abans i després d’aplicar-les.
Com ho podem fer? Històricament els SEOs utilitzàvem el provador de robots.txt de Google, però el van eliminar. Així que t’hauràs de conformar amb eines de tercers, com la de TechnicalSEO. Amb aquesta eina podem comprovar que un robots està disponible i és intel·ligible a nivell general, però el més útil és que podem posar la URL d’una pàgina o fitxer del nostre web, i ens indica si el robots li permet accedir o no. Ens dirà, a més, en cas de bloqueig, quina regla està tancant el pas i en quina línia la podem editar.
Una alternativa, o encara millor com a complement, és instal·lar a Chrome l’excel·lent extensió Robots Exclusion Checker. D’una manera molt intuïtiva, consultant una URL, veiem si està bloquejada pels robots o no.
Acabem amb una llista de les coses bàsiques que hauria de tenir un robots, en format checklist:
Afegiries alguna cosa més? Diria que aquests són els bàsics i aplicables a tots els webs; després, aspectes més específics dependran de cada cas.

Tens un projecte en ment? En volem saber més!
El robots.txt és un fitxer que creem i allotgem al nostre web, la funció del qual és indicar als robots a quines URL poden accedir del nostre lloc i a quines no.