Technique

Contenu dupliqué

Contenu identique ou très similaire accessible via plusieurs URLs différentes, diluant la puissance SEO.

Qu'est-ce que le contenu dupliqué ?

Le contenu dupliqué (ou duplicate content) désigne des blocs de contenu substantiellement identiques ou très similaires accessibles via plusieurs URLs distinctes. Contrairement a une idée reçue, Google n'appliqué pas de pénalité au sens strict, mais les conséquences sont réelles : dilution du PageRank, gaspillage du crawl budget et choix arbitraire de la version canonique.

On distingue la duplication interne (au sein d'un même site) de la duplication externe (entre sites différents). La première est la plus fréquente et résulte souvent de problèmes techniques non intentionnels.

Causes courantes de duplication interne

Versions www et non-www : www.monsite.fr et monsite.fr servent le même contenu sans redirection
HTTP et HTTPS : les deux protocoles coexistent sans canonicalisation
Trailing slash : /page et /page/ sont traitées comme deux URLs distinctes
Paramètres d'URL : session IDs, UTM de tracking, filtrés e-commerce (tri, couleur, taille)
Pages de pagination : /blog/page/2/, /blog/page/3/ avec contenus qui se chevauchent
Chemins multiples : une même fiche produit accessible via plusieurs catégories

Solutions selon le type de duplication

Méthodes de traitement du contenu dupliqué

Méthode	Quand l'utiliser	Effet
Balise canonical	Plusieurs URLs doivent rester accessibles	Consolide les signaux vers l'URL de référence
Redirection 301	L'ancienne URL n'a plus de raison d'exister	Transfert permanent du PageRank
Noindex	Page accessible mais pas indexable	Empêche l'indexation sans bloquer le crawl
Robots.txt (Disallow)	Bloquer le crawl de sections entières	Economise le crawl budget
Paramètres URL (GSC)	Filtrés et tris e-commerce	Aide Google a ignorer certains paramètres
Réécriture de contenu	Pages devant toutes rester indexées	Chaque page apporte une valeur unique

Auditer le contenu dupliqué

Pour détecter le contenu dupliqué, croisez les données d'un crawl technique avec les rapports de la Google Search Console. Le rapport de couverture signale les problèmes de canonicalisation et les pages en double.

Screaming Frog : détecte les doublons internes via l'analyse du contenu et des balises canonical
Google Search Console : rapport Pages, section URL canonique alternative pour identifier les conflits
Siteliner : analyse gratuite du pourcentage de contenu dupliqué interne

Termes liés

Canonical

Balise HTML indiquant aux moteurs de recherche quelle URL est la version principale d'une page en cas de contenu dupliqué.

Voir la définition

Noindex

Directive indiquant aux moteurs de recherche de ne pas indexer une page, la rendant invisible dans les résultats.

Voir la définition

Crawl Budget

Nombre de pages que Googlebot va explorer sur votre site lors d'une session de crawl donnée.

Voir la définition

PrécédentCocon sémantique SuivantContenu SEO

Besoin d'un expert SEO ?

Passez de la théorie à la pratique. Discutons de votre stratégie de référencement naturel.

Réserver un appel stratégique