Contenu dupliqué
Contenu identique ou très similaire accessible via plusieurs URLs différentes, diluant la puissance SEO.
Qu'est-ce que le contenu dupliqué ?
Le contenu dupliqué (ou duplicate content) désigne des blocs de contenu substantiellement identiques ou très similaires accessibles via plusieurs URLs distinctes. Contrairement a une idée reçue, Google n'appliqué pas de pénalité au sens strict, mais les conséquences sont réelles : dilution du PageRank, gaspillage du crawl budget et choix arbitraire de la version canonique.
On distingue la duplication interne (au sein d'un même site) de la duplication externe (entre sites différents). La première est la plus fréquente et résulte souvent de problèmes techniques non intentionnels.
Causes courantes de duplication interne
- Versions www et non-www : www.monsite.fr et monsite.fr servent le même contenu sans redirection
- HTTP et HTTPS : les deux protocoles coexistent sans canonicalisation
- Trailing slash : /page et /page/ sont traitées comme deux URLs distinctes
- Paramètres d'URL : session IDs, UTM de tracking, filtrés e-commerce (tri, couleur, taille)
- Pages de pagination : /blog/page/2/, /blog/page/3/ avec contenus qui se chevauchent
- Chemins multiples : une même fiche produit accessible via plusieurs catégories
Solutions selon le type de duplication
Méthodes de traitement du contenu dupliqué
| Méthode | Quand l'utiliser | Effet |
|---|---|---|
| Balise canonical | Plusieurs URLs doivent rester accessibles | Consolide les signaux vers l'URL de référence |
| Redirection 301 | L'ancienne URL n'a plus de raison d'exister | Transfert permanent du PageRank |
| Noindex | Page accessible mais pas indexable | Empêche l'indexation sans bloquer le crawl |
| Robots.txt (Disallow) | Bloquer le crawl de sections entières | Economise le crawl budget |
| Paramètres URL (GSC) | Filtrés et tris e-commerce | Aide Google a ignorer certains paramètres |
| Réécriture de contenu | Pages devant toutes rester indexées | Chaque page apporte une valeur unique |
Auditer le contenu dupliqué
Pour détecter le contenu dupliqué, croisez les données d'un crawl technique avec les rapports de la Google Search Console. Le rapport de couverture signale les problèmes de canonicalisation et les pages en double.
- Screaming Frog : détecte les doublons internes via l'analyse du contenu et des balises canonical
- Google Search Console : rapport Pages, section URL canonique alternative pour identifier les conflits
- Siteliner : analyse gratuite du pourcentage de contenu dupliqué interne
Termes liés
Canonical
Balise HTML indiquant aux moteurs de recherche quelle URL est la version principale d'une page en cas de contenu dupliqué.
Noindex
Directive indiquant aux moteurs de recherche de ne pas indexer une page, la rendant invisible dans les résultats.
Crawl Budget
Nombre de pages que Googlebot va explorer sur votre site lors d'une session de crawl donnée.
Besoin d'un expert SEO ?
Passez de la théorie à la pratique. Discutons de votre stratégie de référencement naturel.
Réserver un appel stratégique