Duplicate content : ce que vous devez savoir

Le Duplicate Content (ou copie de contenus) offre une expérience utilisateur dégradée et peut sévèrement nuire au référencement de votre site sur les moteurs de recherche. Des contenus trop similaires entre plusieurs sites, ou plusieurs pages d'un même site peuvent donner à vos lecteurs le sentiment que votre contenu est sans intérêt. Le pire, c'est que des milliers de sites souffrent de ces problèmes de contenu dupliqués sans même le savoir.

Du côté du référencement, même si vous avez pris soin de vous assurer que tout le contenu présent sur votre site est 100% d'origine contrôlée, il est toutefois possible que vos pages soient considérées comme étant du contenu dupliqué par Google. Pour cette raison, il est nécessaire de vérifier périodiquement l'ensemble de votre site pour être certain qu'il ne contient aucune trace de duplicate content et pouvoir y remédier dès que possible.

Duplicate content, ce que vous devez savoir

Les différents types de contenu dupliqué

Vous allez le voir, le contenu dupliqué peut prendre de nombreuses formes très variées. Chacune d'entre elles peut nuire durablement à votre quête de visibilité. Vous devez donc être extrêmement vigilant et garder un œil ouvert dès lors que vous scannez votre site pour y détecter d'éventuels problèmes.

 

Copie de contenu externe : le plagiat

Le plagiat est certainement ce qui vient spontanément à l'esprit de la plupart des gens lorsque l'on évoque le contenu dupliqué. Le plagiat se caractérise lorsqu'un site reprend tout ou partie du contenu d'un autre site, et le recopie tel quel. C'est le cas le plus flagrant de duplication de contenu. Cela se produit le plus souvent lorsque les "scraper sites" utilisent des scripts pour republier automatiquement le contenu des principaux sites de médias. Contrairement aux idées reçues, il ne faut pas confondre le plagiat avec le fait de parler d'un même sujet qu'un autre site en utilisant vos propres termes.

 

Manipulation des moteurs de recherche [Duplication de contenus interne au site]

On parle ici de duplication de contenus interne au site. On cherche ici à vouloir manipuler les résultats des moteurs de recherche en reprenant le contenu déjà publié et en dupliquant tout ou partie de ce contenu dans le but de produire plus de contenu sans effort supplémentaire. Le cas le plus fréquent est la duplication des fiches produit sur un site e-commerce.

 

Balises titre ou description similaires

Avoir des balises titre et/ou les meta description en double est une chose beaucoup plus fréquente, et bien plus pardonnable. Comme ces éléments ne sont pas directement visibles par l'utilisateur, ils n'interfèrent pas avec son expérience sur le site. Pourtant, avoir plusieurs balises titre et meta description similaires peut être très mal perçu par Google. Le moteur de recherche trouvant plusieurs pages avec les mêmes descriptions ne saura laquelle afficher dans les résultats. Dans ce cas, il ignorera purement et simplement ces pages.

 

Multiples URL pour un même contenu

On parle d’URL canonique pour désigner l’adresse officielle d'une page web, celle qu'il est préférable d'utiliser pour accéder au contenu correspondant. Il arrive parfois d'avoir un contenu qui soit accidentellement associée à deux URL distinctes et qui ne sont donc pas correctement canonisées. Dans cette configuration, Google considérera que vous avez deux pages distinctes mais avec un contenu identique, ce qui pourrait nuire à votre référencement.

 

Les effets négatifs du Duplicate Content

Naturellement, on pense à l’impact sur le positionnement du site dans les pages des résultats de recherche lorsque l’on évoque l’impact du Duplicate Content. Mais ce n’est pas le seul effet qui peut nuire à votre site.

En effet, un visiteur qui trouvera que votre contenu manque d’originalité ou ressemble trop à ce qui est écrit par ailleurs aura tendance à refermer votre page et à ne plus y revenir. Outre le fait que cela pénalisera votre taux de rebond, cela dégradera fortement l’expérience utilisateur que Google affectionne de plus en plus. Pour approfondir ce point précis, je vous invite à lire L'expérience utilisateur comme avenir du SEO ? qui met en lumière la corrélation de plus en plus étroite entre le référencement et l’expérience utilisateur.

Duplicate content, ce que vous devez savoir

Traquer et éliminer le contenu dupliqué

Nous allons le voir maintenant, il existe plusieurs solutions pour détecter la présence de contenu dupliqué dans les pages de votre site. Vous avez également plusieurs solutions à votre disposition pour « nettoyer » vos pages.

 

Identifier le contenu dupliqué

Pour détecter la présence de contenu dupliqué, vous pouvez commencer par recourir à des outils tels Siteliner ou encore Screaming Frog pour analyser automatiquement et auditer le contenu votre site Web et détecter la présence de contenu dupliqué.

Vous pouvez également vous connecter à votre compte Google Webmaster Tools pour y explorer votre site. Dans la rubrique "Apparence dans les résultats de recherche", en cliquant sur "Améliorations HTML", vous aurez la liste complète des balises titre et les meta descriptions présentes en double sur votre site. Vous pourrez également télécharger cette liste pour apporter les mesures correctrices qui s'imposent sur votre site.

 

Eliminer les problèmes

Heureusement, Google est plutôt indulgent lorsqu'il s'agit de contenu dupliqué. Si vous êtes avez quelques cas présents sur votre site, le moteur de recherche comprendra probablement que vous n'essayez pas de manipuler votre classement ou de berner vos visiteurs. Vous pouvez éventuellement faire face à une baisse de votre visibilité dans les résultats de recherche mais vous ne disparaitrez pas complètement. Mais si vous corrigez les problèmes de duplicate content détectés sur votre site, vous retrouverez vos positions dans les pages des résultats de recherche.

Sachez que dans le milieu du référencement on s’accorde sur un ratio autorisé de 30% de Duplicate Content sur la page. Pour ma part, je serai tenté de vous conseiller de rester en dessous d’un taux de 10%.

 

Des balises uniques

En fonction des résultats de vous indiquera Google Webmaster Tools dans l'onglet "Améliorations HTML", il vous faudra reprendre toutes les balises titre et les meta description ayant un contenu identique. Je le rappelle, chaque balise titre doit être absolument unique et décrire le contenu de la page correspondante. Pour travailler efficacement, je vous encourage à télécharger la liste des balises titre nécessitant une intervention de votre part.
Ce fichier se présentant sous la forme d’un tableur, cela vous sera très utile pour suivre votre travail de nettoyage.

 

Réécrire lorsque cela est possible

C'est sans doute la façon la plus simple de prendre en charge le problème, mais c'est aussi celle qui vous demandera le plus de temps. Malheureusement, comme avec les doublons des meta description, dans de nombreux cas, ce sera la seule façon de résoudre le problème. Sinon, vous devrez supprimer le texte entièrement ou le réécrire totalement pour être certain d'avoir un contenu parfaitement original.

 

Restructurer vos URL

Les erreurs de Duplicate Content peuvent aussi être liées au fait que Google voit une page comme étant plusieurs pages. Cela peut être réglé en clarifiant la structure de vos URL. Par exemple, Google voit monsite.fr/ et monsite.com/?sessionid=10 comme deux pages différentes alors que vos utilisateurs n'en voient qu'une seule. Choisissez un format uniforme pour toutes vos URL.

Par ailleurs, votre site est-il accessible avec ou sans les www dans l’URL ? Pour éviter qu’il le soit avec les deux (ce qui est un cas flagrant de Duplicate Content), je vous invite à lire le tutoriel «Comment ajouter les www à mon nom de domaine» qui vous donnera la marche à suivre pour régler ce problème.

La page d’accueil de votre site ne doit être accessible qu’avec une seule adresse URL. C’est-à-dire que vous ne pouvez avoir monsite.fr/, monsite.fr monsite.fr/index.html ou encore monsite.fr/index.php ! Il va vous falloir impérativement établir une redirection permanente pour toutes les URL non désirées vers la seule qui soit valide.

Je vous invite à lire l’article consacré à la bonne gestion des redirections 301 qui vous sera d’un grand secours si vous devez intervenir sur les URL de votre site.

Duplicate content, ce que vous devez savoir

Et maintenant ?

Une fois que vous avez résolu les différents problèmes, je vous conseille de resoumettre votre site à un examen par Google Webmaster Tools. Pour ce faire, ouvrez l’onglet «Explorer comme Google» dans la partie «Exploration».

Si vous êtes intervenus sur les URL de votre site, vous devrez obligatoirement resoumettre votre fichier sitemap.xml à Google Webmaster Tools et à Bing Webmaster Tools afin que les moteurs de recherche prennent en compte ces modifications.

 

Conclusion

Une fois que vous aurez réglé vos problèmes de duplicate content, ne soyez pas étonné si cela prend un certain temps pour retrouver vos positions dans les résultats de recherche. En effet, Google prend parfois plusieurs jours voire plusieurs semaines pour ré-analyser votre site. Il peut donc s'écouler un certain temps avant que le moteur de recherche ne remarque que vos problèmes de contenu en double ont été entièrement corrigés.
Une fois que votre première analyse sera terminée, je vous recommandé de vérifier votre site mensuellement pour vous assurer qu'aucun autre problème de duplicate content n'ait surgi. Vous devez rester vigilant et prendre les mesures immédiatement pour minimiser les éventuelles conséquences.

N'hésitez surtout pas à intervenir dans les commentaires pour partager votre expérience et pour poser vos questions sur le sujet. A tout de suite !


A PROPOS DE L'AUTEUR :
Webmaster freelance passionné par Joomla depuis 2007, Daniel défend la veuve et l'orphelin du web en créant des sites respectueux du W3C. Fort d'une expérience de plusieurs années, il partage ses connaissances dans un état d'esprit open source.
Daniel est également très impliqué dans la communauté Joomla depuis 2014 en étant membre actif de plusieurs projets, conférencier et fondateur du JUG Breizh.