Définition
On parle de contenu dupliqué (ou duplicate content) quand un même texte (ou un texte très similaire) est accessible depuis plusieurs URLs différentes. Cela peut se produire sur un même site (duplication interne) ou entre plusieurs sites (duplication externe).
Ce n'est pas nécessairement une pratique délibérée. La majorité des cas de duplicate content sont involontaires, causés par la configuration technique du site.
Les deux formes de duplicate content
La duplication interne
C'est la plus courante et la plus facilement corrigeable. Elle se produit quand plusieurs URLs de votre propre site affichent le même contenu :
https://monsite.com/page/ethttp://monsite.com/page/(HTTP vs HTTPS)https://www.monsite.com/page/ethttps://monsite.com/page/(www vs sans www)- Pages de filtres e-commerce :
/chaussures/?couleur=rougeet/chaussures/?couleur=bleuavec le même texte - Pages de pagination :
/blog/et/blog/page/2/avec des introductions identiques - Versions print (
/page/?print=1) ou versions mobiles séparées - Fiches produits copiées d'un fabricant sans réécriture
La duplication externe
Un même texte apparaît sur plusieurs sites différents. Cas typiques : un article publié sur votre blog, puis republié tel quel sur un autre site (syndication), ou du contenu volé par scraping. Dans ce cas, Google doit choisir quelle version est "l'originale", et il ne choisit pas toujours la bonne.
Pourquoi c'est un problème SEO
Le duplicate content dilue l'autorité et crée de la confusion dans l'index Google :
- Cannibalisation : plusieurs pages de votre site se font concurrence sur la même requête, au lieu d'une seule page forte.
- Dilution de l'autorité : les backlinks qui pointent vers la page sont répartis entre plusieurs URLs au lieu de se concentrer sur une seule.
- Mauvais choix d'indexation : Google peut décider d'indexer la "mauvaise" version, celle avec l'URL la moins propre ou la moins accessible.
- Gaspillage du budget de crawl : Google passe du temps à explorer plusieurs versions du même contenu au lieu de découvrir de nouvelles pages.
Duplicate content = pénalité Google ?
Non, pas automatiquement. Google ne pénalise pas le duplicate content involontaire : il choisit simplement l'une des versions à indexer et ignore les autres. La pénalité n'intervient que dans les cas de manipulation délibérée et massive. Mais l'impact SEO négatif existe bien, même sans pénalité explicite.
Comment y remédier
| Cause | Solution |
|---|---|
| HTTP vs HTTPS ou www vs sans www | Redirection 301 systématique vers la version canonique |
| URLs avec paramètres (filtres, tri, pagination) | Balise canonical pointant vers la version principale |
| Fiches produits dupliquées | Réécrire les descriptions ou ajouter une balise canonical |
| Pages de tags ou catégories vides | Noindex sur ces pages ou suppression + redirection |
| Syndication de contenu sur d'autres sites | Demander l'ajout d'un canonical vers votre version originale |
| Contenu copié par des tiers | Demande de retrait DMCA ou désaveu si présence de liens |
La balise canonical : l'outil principal
La balise canonical indique à Google quelle est la version "officielle" d'une page parmi plusieurs URLs similaires. Elle se place dans le <head> :
<link rel="canonical" href="https://monsite.com/page-principale/">
Toutes les versions dupliquées portent cette balise pointant vers la version principale. Google transfère l'autorité vers cette URL et n'indexe que celle-là. C'est la méthode recommandée pour les situations où la redirection 301 n'est pas possible (par exemple pour les pages de filtres e-commerce qui doivent rester accessibles).
Duplicate exact vs near-duplicate
Il existe deux niveaux de duplication. Le duplicate exact (contenu identique à 100 %) est le cas le plus simple à détecter. Le near-duplicate (contenu très similaire mais pas identique) est plus insidieux et plus fréquent.
| Type | Exemple concret | Risque SEO |
|---|---|---|
| Duplicate exact | Même fiche produit accessible via deux URLs différentes | Élevé : Google choisit une URL à indexer, l'autre est ignorée |
| Near-duplicate | Fiches produits avec seulement la couleur ou la taille qui change, texte principal identique | Moyen à élevé : cannibalisation, dilution de l'autorité sur des variantes |
| Duplication partielle | Pages de catégorie avec une introduction copiée-collée sur toutes les sous-catégories | Faible à moyen : signal de qualité dégradé, pas de pénalité directe |
Le near-duplicate est souvent à l'origine de problèmes de cannibalisation : plusieurs pages quasi-identiques se font concurrence sur la même requête. La solution n'est pas toujours la balise canonical : parfois, la bonne approche est de différencier le contenu (décrire chaque variante différemment) ou de fusionner les pages en une seule.
Comment détecter le duplicate content
- Screaming Frog : liste toutes les pages avec le même contenu exact ou quasi-identique via la fonction "Near Duplicate". Exporte aussi les pages avec des balises canonical qui diffèrent de l'URL réelle.
- Google Search Console : le rapport "Pages" (indexation) signale les pages en doublon et celles dont la canonical a été remplacée par Google — signe que Google n'a pas suivi votre indication.
- Siteliner.com : outil gratuit pour détecter le contenu dupliqué interne sur les petits sites (jusqu'à 25 000 pages en version gratuite).
- Recherche "site:" dans Google : chercher
site:mondomaine.fr "texte exact de l'introduction"peut révéler des pages où ce texte est répété.
Questions fréquentes
Le duplicate content est-il pénalisé par Google ?
Pas directement par une sanction, mais ses effets sont délétères. Google choisit une seule URL canonique parmi les pages dupliquées et ignore les autres. Si Google se trompe de version, votre URL préférée n'apparaît pas dans les résultats. L'autorité se dilue entre plusieurs URLs au lieu de se concentrer sur une seule. Le duplicate content n'est donc pas pénalisé, il est neutralisé, ce qui revient pour vous au même résultat.
Combien de pourcentage de duplicate content est acceptable ?
Pas de seuil officiel. Google juge l'ensemble du contenu, pas un ratio. Une page peut contenir 30 % de texte commun à une autre (mentions légales, citations, descriptions techniques standard) sans poser de problème si le reste est original et apporte de la valeur. À l'inverse, deux pages avec 90 % de similarité sont systématiquement traitées comme du duplicate, même si elles ont des URLs différentes.
Comment détecter le duplicate content sur son site ?
Avec Screaming Frog : dans l'onglet "Content > Duplicates", l'outil identifie les pages avec un contenu identique ou très similaire. Avec Siteliner.com (gratuit jusqu'à 250 URLs) : analyse rapide de la duplication interne avec pourcentage de similarité. Avec Google Search Console : le rapport "Pages > URL alternative avec balise canonique correcte" montre les pages que Google considère comme des doublons.
Que faire face à un site qui copie mon contenu ?
Trois options : demander au site de retirer ou citer la source, déposer une plainte DMCA auprès de Google pour faire désindexer la copie, ou ignorer si l'impact est marginal. Google identifie généralement bien l'auteur original via la fraîcheur du contenu et les signaux d'autorité. Le site copieur est rarement classé devant l'original, sauf si son autorité est largement supérieure.