Sitemap XML
Fichier XML listant toutes les URLs importantes d'un site pour faciliter leur découverte par les moteurs de recherche.
Qu'est-ce qu'un sitemap XML ?
Le sitemap XML est un fichier qui fournit aux moteurs de recherche une liste structurée des URLs de votre site que vous souhaitez voir explorées et indexées. C'est un outil de communication directe avec les crawlers, leur permettant de découvrir des pages qu'ils pourraient manquer en suivant simplement les liens internes.
Structure d'un sitemap XML
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schémas/sitemap/0.9">
<url>
<loc>https://patagonia.com/</loc>
<lastmod>2025-01-15</lastmod>
<changefreq>monthly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://patagonia.com/shop/jackets/</loc>
<lastmod>2025-01-10</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>En pratique, Google tient principalement compte de `<loc>` (obligatoire) et `<lastmod>`, et accorde peu d'importance a `<changefreq>` et `<priority>`. Chaque sitemap est limite a 50 000 URLs ou 50 Mo.
Types de sitemaps spécialisés
Les différents types de sitemaps
| Type | Balise XML | Usage |
|---|---|---|
| Sitemap standard | <urlset> | Liste des pages HTML du site |
| Sitemap d'images | <image:image> | Aide Google a découvrir les images |
| Sitemap vidéo | <vidéo:vidéo> | Métadonnées sur les contenus vidéo |
| Sitemap actualités | <news:news> | Requis pour Google Actualités |
| Index de sitemaps | <sitemapindex> | Régroupe plusieurs sitemaps pour les grands sites |
Bonnes pratiques du sitemap
- URLs canoniques uniquement : n'incluez pas les versions dupliquées ou les pages avec paramètres
- Pages indexables : ne listez que les pages en code 200 sans balise noindex
- Mise à jour automatique : generez le sitemap dynamiquement à chaque publication ou modification
- Dates lastmod honnêtes : ne les actualisez que lors de modifications réelles du contenu
- Soumission : via la Google Search Console ou la directive `Sitemap:` dans le robots.txt
Termes liés
Crawl
Processus par lequel les robots de Google (Googlebot) parcourent et analysent les pages d'un site web.
Indexation
Processus par lequel Google ajoute une page web à son index pour qu'elle puisse apparaître dans les résultats de recherche.
Robots.txt
Fichier placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages explorer ou ignorer.
Google Search Console
Outil gratuit de Google permettant de surveiller et d'optimiser la présence d'un site dans les résultats de recherche.
Besoin d'un expert SEO ?
Passez de la théorie à la pratique. Discutons de votre stratégie de référencement naturel.
Réserver un appel stratégique