Comment éviter le contenu dupliqué dans son référencement ?

On ignore comment les moteurs de recherche identifient un contenu dupliqué. Et ce n'est pas demain la veille qu'ils vont dévoiler leurs techniques, car certains pourraient le contourner assez facilement. Le contenu dupliqué est l'un des principaux problèmes du web. Cela a empiré avec des référenceurs Black Hat qui utilisaient des outils pour copier et transformer du texte. Le principe est d'utiliser des synonymes sur le contenu d'origine pour éviter la détection, mais Google a mis fin à ces pratiques avec des campagnes aggressives et des mises à jour permanentes.

Les résultats d'un contenu dupliqué sur votre site


Vous aurez de nombreux problèmes avec votre référencement si vous avez du contenu dupliqué sur votre site. Le premier est que vos pages ne seront pas indexées correctement. En effet, les robots des moteurs de recherche ont une durée limitée pour visiter chaque page. Si vous avez beaucoup de pages dupliquées, le robot va perdre du temps à les filtrer et le résultat est que vos bonnes pages ne seront pas prises en compte. Ensuite, votre référencement va en souffrir à cause de la perte des liens entrants. Si vous avez des liens entrants qui pointent vers du contenu dupliqué, vous n'en retirerez aucun bénéfice sur le classement puisque Google aura déjà filtré ces pages. Et enfin, on en revient au fonctionnement des moteurs de recherche. Vous ne saurez pas comment Google classe vos pages et supprime celles qui semblent être du plagiat. Et donc, vous allez être pénalisés sur tout votre référencement.

Le contenu dupliqué involontaire est parfois systématique dans les CMS. Ainsi Joomla peut proposer différentes versions de la page tels que le HTML, le PDF et celle qui est optimisé pour l'impression. Donc, vous avez déjà deux contenus dupliqués pour chaque page. L'une des solutions est d'utiliser une redirection canonique sur les pages secondaires qui pointent vers le contenu original. Un autre problème se produit lorsque vous syndiquez le contenu provenant d'autres sites. Avec la mise à jour de Google Panda, certains ont remarqués que les sites qui syndiquaient leur contenu étaient en meilleure position que les auteurs originaux de l'article ! Une alternative est de mettre un lien vers la source de l'article pour que Google puisse faire le tri. Mais si le webmestre est de mauvaise foi, il peut omettre délibérément le lien vers la source et vous serez pénalisé. On conseille de contacter directement le webmestre ou de faire un rapport de spam sur le site à Google.

Comment éviter le contenu dupliqué ?


On peut avoir une idée de base sur la détection du plagiat. La première est que Google vise uniquement le corps du texte. Il n'analyse jamais le code et donc, on n'a rien à craindre de ce coté. Ensuite, Google possède une bonne idée sur le design des sites et donc, des parties telles que l'entête ou le pied de page ne sont pas prises en compte par cette détection. Cependant, on ne doit pas surcharger ces parties avec du texte, car on y met généralement les liens de navigation et de contact. Si vous avez l'habitude d'utiliser du contenu tierce, mettez une balise NoIndex sur ces pages pour interdire l'indexation par les moteurs de recherche. Ainsi, vous ne serez pas pénalisé par Google, mais vos visiteurs pourront bénéficier de cette diversité de contenu.

Des services tels que CopyScape peuvent vous aider à identifier des copieurs potentiels. Etant donné que c'est un service automatique, sa fiabilité n'est pas de 100 %, mais il donne quand même d'excellent résultats. Il peut analyser une portion de texte (pour l'offre payante) ou une page entière. S'il détecte une copie, il affichera la quantité de mots qu'il a détecté ainsi que l'URL incriminée. Si vous pensez que le site copieur a franchi les limites et qu'il refuse de supprimer ce contenu, vous pouvez déposer une plainte DMCA à Google pour qu'il le supprime. Attention, le DMCA permet de reporter un contenu qui viole le droit d'auteur tandis que le report de spam est pour les sites avec des pratiques douteuses.