Détecter le Duplicate Content

outil de détection de plagiat
Bald’r le logiciel original

Il y a quelques années de cela, je suis tombé sur Baldr, logiciel permettant à un professeur de savoir si ses élèves trichaient… Ce logiciel avait la faculté d’auditer des codes-sources et documents textes et était capable d’extraire le « sens » des textes proposés. Ainsi, pour reprendre l’exemple d’un code source informatique, cet outil pouvait repérer un travail copié-collé même en cas de remplacement de noms de variables ou d’ajout/suppression de fonctions dont le but était de masquer la copie.

Le logiciel Bald’r original

Basé sur l’algorithme de compression GZ, cette outil compare tout simplement la distance informationnelle de deux textes. Très concrètement, l’outil compresse les deux textes et compare les résultats compressés. Si le taux de similarité est important, la suspicion de plagiat est importante. Là ou l’outil est génial c’est qu’il est capable de trouver une similarité même si le contenu est différent car c’est la forme qui est analysé que le fond grâce à l’essence du contenu obtenu grâce à la compression.

La lutte au contenu dupliqué

Pour les moteurs de recherche, aucun intérêt d’avoir du contenu dupliqué dans leur index. Inutile de proposer les mêmes résultats aux internautes. La nécessité d’éliminer les textes copiés-collés est donc importante. D’autant plus que le contenu repris à d’autres sources s’élèverait à plus de 40%.

Contenu dupliqué et référencement

outil de recherche de contenu dupliqué
Bald’r version web

Pour le référencement, cet outil est intéressant car il permet d’analyser en volume des textes qui pourraient ne pas passer les tests de duplication de contenu. Cerise sur le gâteau, il est très simple à mettre en oeuvre et s’adapte très bien au contenu HTML.

Nous avons mis en place une version PHP de cet outil en 2010 et l’avons utilisé sur certains sites web ou les risques de similarités étaient importants (notamment le projet qui reposait sur le maillage interne géolocalisé). Les résultats nous avaient alors apparu très satisfaisants.

Outil intéressant donc en complément des moyens traditionnels de détection de duplication de contenus. Avis aux amateurs…

 

17 réflexions au sujet de « Détecter le Duplicate Content »

  1. Effectivement un outil intéréssant dans la mesure où la technique de détection du duplicate content est complémentaire de celles utilisées par les outils en ligne.
    A savoir maintenant s’il est possible de tester l’outil 😉

  2. Article intéressant, puisque c’est mon cas comme je suis un professeur d’informatique et je suis tellement curieuse donc je vais aller me chercher ce logiciel en version gratuite ou même payante.
    Merci ! À dieu mes élèves…

  3. Balder, l’original est gratuit et permet déjà de voir si les résultats sont satisfaisant. Ensuite, si ok, un simple script php avec comparaison de 2 fichiers compressés suffit : c’est le coeur du logiciel. Notre outil interne, de son côté, le restera car il n’est pas indépendant d’autres outils que nous utilisons.

  4. Entièrement d’accord avec toi Mikiweb, en plus si il est gratuit, c’est encore mieux. Je vais essayer de le tester pour voir les résultats que l’on peut tirer avec.

  5. Super pratique car pour le moment je me contente seulement de coller mon texte sous google et voir s’il trouve des résultats équivalents.

  6. Il faudrait maintenant que ce prof crée un spinneur automatique de même niveau pour mettre des appréciations sur les copies plus rapidement. Les référenceurs bourrins pourraient alors l’utiliser ^^

  7. Effectivement un logiciel très intéressant et diminue le nombre de triches des élèves et j’ai reconnu ce logiciel pour la première fois en classe par notre professeure qui l’utilise souvent

  8. L’approche est très intéressante, j’aime bien aussi le dernier programme de wassner qui permet de faire un échantillonnage de ses followers sur Twitter et d’en faire une cartographie. Il est connexe à cette démarche d’analyse sémantique des comptestwitters. Merci pour l’information sur Bald’r, je ne connaissais pas.

  9. C’est vrai que cet outil doit être pratique à utiliser, moi j’utilise parfois Positeo quand j’ai besoin de vérifier, mais je ne lui fais vraiment pas beaucoup confiance aux vues de ce que j’ai déjà pu remarquer…

  10. et bien ça alors. Je suis bien surpris par la méthode exposée ici.
    mince dis donc, je suis fort étonné de la procédure indiquée dans cet article.

    voilà deux phrases qui sont forts proches. Au niveau du sens.
    Je ne vois absolument pas en quoi le fait de les compresser ferait réapparaître comme par magie leur identité de sens.

    Il y a un truc que je ne pige vraiment pas.
    Quelque chose reste en dehors de ma compréhension !

  11. Bonjour,

    Tout cela est bien intéressant, mais je me pose tout de même une question: pour utiliser ce logiciel, faut-il lui fournir les textes à comparer ou est-il relié aux moteurs de recherche pour vérifier avec ce qui a déjà été publié?
    Merci d’avance de votre réponse.

    Cordialement,

    Bruno

  12. Il n’a alors aucun intérêt s’il ne permet pas de vérifier si des publications équivalentes existent déjà!

  13. L’intérêt, ici, n’est pas de mesurer le contenu dupliqué avec l’extérieur mais avec ses propres contenus.
    L’outil initial permet de mesurer le plagiat entre travaux d’élèves. Le référenceur, de son côté, peut s’en servir pour mesurer le taux de similitudes entre ses propres textes afin d’éviter le duplicate content interne. Je pense par exemple aux pages web générées à partir de bases de données (fiches descriptives de produits de catalogues e-commerce, listing d’adresses…).

  14. Le 15 Aout 2014 j ai vérifié qu il n y avait pas de contenu dupliqué j ai eu la très désagréable surprise de constater que les voleurs de contenu avaient de nouveau frappés … Obligé de les appeler un par un afin de demander que le contenu soit modifié …perte de temps monumentale quand on n a ni inspiration ni idée on vole le travail des autres grrrr je suis furax… mon site risque d être pénalisé à cause de médiocre suffisant…

  15. Bonjour,

    Comme c’est sympathique de supprimer les liens de certains commentateurs après les avoir acceptés et surtout après avoir profité de leurs nombreux partages!

  16. Bonjour,
    Merci de prendre note de l’article de 2012 qui explique comment sont gérés les commentaires de ce blog.
    De temps en temps, je supprime des commentaires, des liens, je renomme des ancres de liens par le nom des personnes derrière… (et c’est fait de façon arbitraire et pas forcément homogène) afin d’avoir un site qui corresponde aux contraintes qu’imposent certains moteurs de recherche et à mes propres facteurs (paranoïa du moment, temps dispo, énervement suite à afflux massif de spam…).

    Le but n’est pas ici de flouer les commentateurs mais de garder une ligne plus ou moins en accord avec ce qui me semble juste.
    Je n’oblige personne à venir participer aux discussions mais les règles sont fixés et chacun est libre de commenter en toute connaissance de cause.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *