Technique

Robots.txt

Fichier placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages explorer ou ignorer.

Qu'est-ce que le fichier robots.txt ?

Le robots.txt est un fichier texte brut place a la racine de votre site (accessible à `votresite.fr/robots.txt`) qui communique des instructions aux robots d'exploration. C'est le premier fichier que Googlebot consulte avant de crawler votre site. Il fonctionne selon le Robots Exclusion Protocol, un standard du web depuis 1994.

Syntaxe et directives du robots.txt

txt

# Bloquer un répertoire pour tous les robots
User-agent: *
Disallow: /admin/
Disallow: /search/
Disallow: /cart/

# Autoriser un sous-répertoire spécifique
Allow: /admin/public/

# Directive spécifique pour Googlebot
User-agent: Googlebot
Disallow: /tmp/

# Indiquer le sitemap
Sitemap: https://monsite.fr/sitemap.xml

Les directives sont lues de haut en bas. User-agent spécifie le robot cible (* pour tous). Disallow bloque l'accès, Allow autorise un chemin spécifique dans un répertoire bloque. La règle la plus spécifique l'emporte en cas de conflit.

Cas d'usage courants

E-commerce : bloquer les pages de filtrés (`/search/?couleur=rouge`), le panier (`/cart/`) et l'espace client (`/account/`)
Blog WordPress : bloquer les pages de tags (`/tag/`), auteurs (`/author/`) et pagination profonde
Site vitrine : bloquer les pages d'administration et les ressources internes
Staging/preprod : bloquer l'intégralité du site avec `Disallow: /` pour éviter l'indexation

Pieges et erreurs courantes

Disallow: / bloque tout : une seule ligne peut désindexer l'intégralité de votre site
Bloquer CSS/JS : empêche Google de rendre correctement vos pages (impacte le SEO)
robots.txt ne bloque pas l'indexation : si d'autres sites font des liens vers une page bloquée, Google peut quand même l'indexer
Ne pas utiliser noindex + robots.txt : bloquer le crawl empêche Google de voir la balise noindex
Fichier public : n'inscrivez jamais de chemins vers des répertoires sensibles, cela revient a les signaler

Termes liés

Crawl

Processus par lequel les robots de Google (Googlebot) parcourent et analysent les pages d'un site web.

Voir la définition

Crawl Budget

Nombre de pages que Googlebot va explorer sur votre site lors d'une session de crawl donnée.

Voir la définition

Indexation

Processus par lequel Google ajoute une page web à son index pour qu'elle puisse apparaître dans les résultats de recherche.

Voir la définition

Sitemap XML

Fichier XML listant toutes les URLs importantes d'un site pour faciliter leur découverte par les moteurs de recherche.

Voir la définition

PrécédentRich Snippet SuivantROI SEO

Besoin d'un expert SEO ?

Passez de la théorie à la pratique. Discutons de votre stratégie de référencement naturel.

Réserver un appel stratégique