En informatique, il peut y avoir pire que l’absence d’information : une information dupliquée : quelle est la bonne version pour tel ou tel document.
Internet n’échappe pas à cette règle et pour augmenter leur efficience, les moteurs de recherche filtrent les pages au contenu identique voir fortement similaire. Un site contenant des pages pour lesquelles un contenu identique ou fortement similaire sera détecté perdra en visibilité dans les pages de résultats des moteurs de recherche pour cause de duplicate content.
Pour une excellente traduction du Duplicate Content vu par Google, vous pouvez vous rendre sur WordPress Tuto
Comment gérer un cas de contenu dupliqué :
Il faut garder d’abord à l’esprit que :
Le duplicate content ne concerne qu’une ou plusieurs pages d’un site et non le site dans sa globalité.
Il ne s’agit pas d’une pénalité infligée par les moteurs de recherche (même si en définitive c’est ressenti comme tel) mais d’un filtre que les moteur mettent en place pour renforcer l’efficience de leurs résultats.
Le duplicate content peut s’expliquer par des facteurs externes et internes :
- Facteurs externes du site :
Là on commence à frémir : autrui pourrait nuire à mon site chéri dont je bichonne le contenu !
Et oui, il s’agit tout bêtement par exemple de plagiat : Même contenu ou très forte similarité qui ne peut s’expliquer que par un copier-coller pur et dur. Si le plagiat est avéré, en cas de recherche sur un contenu commun à toutes ces pages, seule sera affichées la page ayant le Pagerank le plus élevé, les autres seront visibles à la fin des pages de résultat (la 50è ou la 120è) si l’internaute choisit de cliquer sur « relancer la recherche en incluant les pages ignorées ». Et là ça fâche !
Attention toutes les pages étant présentes dans l’index, elles pourront figurer dans les pages de résultats des recherche si la requête porte sur ce qui diffère du contenu copié (une mise à jour d’un article peut permettre de faire la différence).
Mais en règle générale, s’il y a plagiat, il vaut mieux tenter de faire valoir ces droits, vous pouvez consulter l’article de l’Agence Axe-net pour estimer l’étendue des dégâts potentiels en cas de plagiat, voir même vous inspirer de leur démarche agressive (il n’y pas de jugement de valeur dans le terme agressif, seulement la preuve de leur volonté d’action)
- Facteur internes : les erreurs de conception lors de la création du site :
Une volonté de tromper les moteurs de recherche : en mal de contenu sur votre site, vous avez décidé de gonfler artificiellement le contenu de votre page en ajoutant des clones de certaines pages, ou bien vous avez tenté de le faire à des fins d’optimisation, c’est raté, ça c’est vu, vous êtes puni, il ne vous reste plus qu’à retirer les pages incriminées et rechercher parmi les autres « trucs de référencement qui marchent à chaque fois et qui sont super-simples à mettre en oeuvre » : cette méthode présente tous les risques et il n’y a rien à gagner !
Une erreur d’étourderie flagrante : Pour éviter le cas le plus fréquent et le plus ennuyeux de « Duplicate Content », retenez que toutes les pages de votre site doivent absolument comporter des balises <Title> et <Description> différentes !
Le cas du www : Que l’on tape ou ne page pas le www, votre site est accessible par le navigateur donc par les moteurs de recherche. Or un site accessible avec 2 urls différentes ouvre en grand la porte vers le duplicate content : votre site sera indexé 2 fois, la solution vous assurer que seule la version officielle du site (située à l’adresse www.monsite.com) doit être déclarée indexable, vous procéder à ce réglage en gérer vos redirections sur votre hébergement et vous pouvez également déclarer sur Google Outils pour les Webmasters la version officielle (l’URL canonique). Il suffit d’aller dans son compte Google Outils pour les webmasters > outils > Définir un domaine favori.
Avoir 2 URL pour sa page d’accueil : Lorsque l’on tape www.monsite.fr, le navigateur va rechercher dans ce répertoire, la page index.htm, s’il ne la trouve pas il va chercher la page index.html puis éventuellement en cas d’échec la page index.php. Lorsque l’on utilise un logiciel de création de site internet, et que vous souhaitez faire un retour sur la page d’accueil, vous pouvez déclarer ce lien en page interne (index.html) ou en lien externe (www.monsite.fr)
Il est recommandé de faire pointer ce lien uniquement sur l’URL stricte de votre nom de domaine, sinon on retombe encore sur le problème de contenu dupliqué (avec en plus une dilution du PageRank du au doublonnage de la page d’accueil).
Le problème reste entier pour les backlinks (que tout le monde souhaite avoir), comment faire pour éviter les liens approximatifs et eronnés des autres sites : tout d’abord une solution de facilité est de proposer aux autres webmaster le type de liens que vous souhaitez, vous placez un simple portion de code comportant le lien que vous souhaitez (ce qui permet en plus de gérer correctement les anchors text)
Pour une programmation plus poussée, je vous renvoie sur le site Webrankinfo qui indique une programmation en php efficace pour gérer cet inconvénient erreur n°2.
Avoir 2 URL pour une même page dans le site : C’est souvent le cas dans les sites de types blogs ou ceux qui comportent des forums, si je choisis de limiter la taille de mon article et de renvoyer sur une page lire la suite pour le reste de l’article. Dans le cas de wordpress, le plugin All in One SEO permet de gérer convenablement ce souci
Erreurs dans la cas d’url rewriting :Si vous mettez en place un tel système assurez-vous que les pages sont indexables selon un seul type d’urls.
Plusieurs noms de domaine déposés pour un même site : Pour vous prémunir d’un éventuel cybersquatting, vous avez acheté plusieurs noms de domaines et tous renvoient sur le site officiel donc le domaine officiel, votre site sera indexé plusieurs fois (pour chaque nom de domaine), l’ensemble de vos pages constitueront un cas de duplicate content. En effet : à un même moment une même page est accessible par :www.monsite.com/mapage.html mais aussi par www.monsite.fr/mapage.html, autant de possibilité d’indexation que de domaines activés.
Quelques outils utiles :
- Pour vérifier si la redirection est bien activée (avec un code 301), vous pouvez entrer votre url dans l’outil HHTP Header proposé par Yagoort http://outils.yagoort.org/httpheader.html
Il ne vous reste plus qu’à mettre en place les bonnes redirections
- Détection de contenu dupliqués entre deux sites, avec http://www.duplicatecontent.net/
J’ai effectivement le problème deux noms de domaines COM et NET avec le contenu exact du COM (les liens internes aussi). Seul le root du NET et redirigé vers le COM.. Du coup les 40 000 pages indéxées dans google du NET font du duplicate content avec le COM. Que puis-je faire..?
Merci d’avance
Bonjour,
A mon humble avis, il faut arrêter ton choix sur l’un ou l’autre. Une simple redirection 301 permettrade rediriger automatiquement les visiteurs de ton .net vers le .com.
Pour établir une redirection 301, un petit tour dans le .htaccess
où tu glisses ces lignes de codes
RewriteEngine on
RewriteCond %{HTTP_HOST} ^www\.example\.net$ [NC]
RewriteRule ^(.*) http://www.example.com/$1 [QSA,L,R=301]
et dans ce cas, tout ce qui arrive sur le .com est redirigé sur le .net.
Comme la redirection est en 301 (permanente), les pages en .net vont progressivement disparaitre de l’index de Google mais je ne crois pas que les pages en .com puissent récupérer la notoriété des pages .net
Par contre, il faut absolument retravailler ton netlinking en indiquant aux sites qui ont fait des liens vers toi de les modifier en conséquence.
La visibilité que tu site a acquis grâce . net va s’estomper mais tu ne risques plus le duplicate content.