Robots.txt
Fichier placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages explorer ou ignorer.
Qu'est-ce que le fichier robots.txt ?
Le robots.txt est un fichier texte brut place a la racine de votre site (accessible à `votresite.fr/robots.txt`) qui communique des instructions aux robots d'exploration. C'est le premier fichier que Googlebot consulte avant de crawler votre site. Il fonctionne selon le Robots Exclusion Protocol, un standard du web depuis 1994.
Syntaxe et directives du robots.txt
# Bloquer un répertoire pour tous les robots
User-agent: *
Disallow: /admin/
Disallow: /search/
Disallow: /cart/
# Autoriser un sous-répertoire spécifique
Allow: /admin/public/
# Directive spécifique pour Googlebot
User-agent: Googlebot
Disallow: /tmp/
# Indiquer le sitemap
Sitemap: https://monsite.fr/sitemap.xmlLes directives sont lues de haut en bas. User-agent spécifie le robot cible (* pour tous). Disallow bloque l'accès, Allow autorise un chemin spécifique dans un répertoire bloque. La règle la plus spécifique l'emporte en cas de conflit.
Cas d'usage courants
- E-commerce : bloquer les pages de filtrés (`/search/?couleur=rouge`), le panier (`/cart/`) et l'espace client (`/account/`)
- Blog WordPress : bloquer les pages de tags (`/tag/`), auteurs (`/author/`) et pagination profonde
- Site vitrine : bloquer les pages d'administration et les ressources internes
- Staging/preprod : bloquer l'intégralité du site avec `Disallow: /` pour éviter l'indexation
Pieges et erreurs courantes
- Disallow: / bloque tout : une seule ligne peut désindexer l'intégralité de votre site
- Bloquer CSS/JS : empêche Google de rendre correctement vos pages (impacte le SEO)
- robots.txt ne bloque pas l'indexation : si d'autres sites font des liens vers une page bloquée, Google peut quand même l'indexer
- Ne pas utiliser noindex + robots.txt : bloquer le crawl empêche Google de voir la balise noindex
- Fichier public : n'inscrivez jamais de chemins vers des répertoires sensibles, cela revient a les signaler
Termes liés
Crawl
Processus par lequel les robots de Google (Googlebot) parcourent et analysent les pages d'un site web.
Crawl Budget
Nombre de pages que Googlebot va explorer sur votre site lors d'une session de crawl donnée.
Indexation
Processus par lequel Google ajoute une page web à son index pour qu'elle puisse apparaître dans les résultats de recherche.
Sitemap XML
Fichier XML listant toutes les URLs importantes d'un site pour faciliter leur découverte par les moteurs de recherche.
Besoin d'un expert SEO ?
Passez de la théorie à la pratique. Discutons de votre stratégie de référencement naturel.
Réserver un appel stratégique