Détecter le Duplicate Content

outil de détection de plagiat — Bald’r le logiciel original

Il y a quelques années de cela, je suis tombé sur Baldr, logiciel permettant à un professeur de savoir si ses élèves trichaient… Ce logiciel avait la faculté d’auditer des codes-sources et documents textes et était capable d’extraire le « sens » des textes proposés. Ainsi, pour reprendre l’exemple d’un code source informatique, cet outil pouvait repérer un travail copié-collé même en cas de remplacement de noms de variables ou d’ajout/suppression de fonctions dont le but était de masquer la copie.

Le logiciel Bald’r original

Basé sur l’algorithme de compression GZ, cette outil compare tout simplement la distance informationnelle de deux textes. Très concrètement, l’outil compresse les deux textes et compare les résultats compressés. Si le taux de similarité est important, la suspicion de plagiat est importante. Là ou l’outil est génial c’est qu’il est capable de trouver une similarité même si le contenu est différent car c’est la forme qui est analysé que le fond grâce à l’essence du contenu obtenu grâce à la compression.

La lutte au contenu dupliqué

Pour les moteurs de recherche, aucun intérêt d’avoir du contenu dupliqué dans leur index. Inutile de proposer les mêmes résultats aux internautes. La nécessité d’éliminer les textes copiés-collés est donc importante. D’autant plus que le contenu repris à d’autres sources s’élèverait à plus de 40%.

Contenu dupliqué et référencement

outil de recherche de contenu dupliqué — Bald’r version web

Pour le référencement, cet outil est intéressant car il permet d’analyser en volume des textes qui pourraient ne pas passer les tests de duplication de contenu. Cerise sur le gâteau, il est très simple à mettre en oeuvre et s’adapte très bien au contenu HTML.

Nous avons mis en place une version PHP de cet outil en 2010 et l’avons utilisé sur certains sites web ou les risques de similarités étaient importants (notamment le projet qui reposait sur le maillage interne géolocalisé). Les résultats nous avaient alors apparu très satisfaisants.

Outil intéressant donc en complément des moyens traditionnels de détection de duplication de contenus. Avis aux amateurs…

17 réflexions au sujet de « Détecter le Duplicate Content »

Mikiweb dit :

4 avril 2013 à 16 h 58 min

Effectivement un outil intéréssant dans la mesure où la technique de détection du duplicate content est complémentaire de celles utilisées par les outils en ligne.
A savoir maintenant s’il est possible de tester l’outil 😉
Alex dit :

10 avril 2013 à 18 h 26 min

Article intéressant, puisque c’est mon cas comme je suis un professeur d’informatique et je suis tellement curieuse donc je vais aller me chercher ce logiciel en version gratuite ou même payante.
Merci ! À dieu mes élèves…
Christophe BENOIT dit :

11 avril 2013 à 6 h 07 min

Balder, l’original est gratuit et permet déjà de voir si les résultats sont satisfaisant. Ensuite, si ok, un simple script php avec comparaison de 2 fichiers compressés suffit : c’est le coeur du logiciel. Notre outil interne, de son côté, le restera car il n’est pas indépendant d’autres outils que nous utilisons.
fabs dit :

13 avril 2013 à 16 h 25 min

Entièrement d’accord avec toi Mikiweb, en plus si il est gratuit, c’est encore mieux. Je vais essayer de le tester pour voir les résultats que l’on peut tirer avec.
Nicolas dit :

13 avril 2013 à 20 h 37 min

Super pratique car pour le moment je me contente seulement de coller mon texte sous google et voir s’il trouve des résultats équivalents.
Morgan dit :

16 avril 2013 à 12 h 26 min

Il faudrait maintenant que ce prof crée un spinneur automatique de même niveau pour mettre des appréciations sur les copies plus rapidement. Les référenceurs bourrins pourraient alors l’utiliser ^^
Alex dit :

25 avril 2013 à 10 h 52 min

Effectivement un logiciel très intéressant et diminue le nombre de triches des élèves et j’ai reconnu ce logiciel pour la première fois en classe par notre professeure qui l’utilise souvent
patrick dit :

3 mai 2013 à 22 h 14 min

L’approche est très intéressante, j’aime bien aussi le dernier programme de wassner qui permet de faire un échantillonnage de ses followers sur Twitter et d’en faire une cartographie. Il est connexe à cette démarche d’analyse sémantique des comptestwitters. Merci pour l’information sur Bald’r, je ne connaissais pas.
Sandy dit :

7 juin 2013 à 8 h 25 min

C’est vrai que cet outil doit être pratique à utiliser, moi j’utilise parfois Positeo quand j’ai besoin de vérifier, mais je ne lui fais vraiment pas beaucoup confiance aux vues de ce que j’ai déjà pu remarquer…
Eric dit :

16 juillet 2013 à 2 h 02 min

et bien ça alors. Je suis bien surpris par la méthode exposée ici.
mince dis donc, je suis fort étonné de la procédure indiquée dans cet article.

voilà deux phrases qui sont forts proches. Au niveau du sens.
Je ne vois absolument pas en quoi le fait de les compresser ferait réapparaître comme par magie leur identité de sens.

Il y a un truc que je ne pige vraiment pas.
Quelque chose reste en dehors de ma compréhension !
BtPub dit :

29 août 2013 à 9 h 11 min

Bonjour,

Tout cela est bien intéressant, mais je me pose tout de même une question: pour utiliser ce logiciel, faut-il lui fournir les textes à comparer ou est-il relié aux moteurs de recherche pour vérifier avec ce qui a déjà été publié?
Merci d’avance de votre réponse.

Cordialement,

Bruno
Christophe BENOIT dit :

6 septembre 2013 à 5 h 48 min

Il faut fournir le contenu. À la base cet outil n’est pas sensé être connecté à Google.
Bruno TRITSCH dit :

6 septembre 2013 à 8 h 53 min

Il n’a alors aucun intérêt s’il ne permet pas de vérifier si des publications équivalentes existent déjà!
Christophe BENOIT dit :

6 septembre 2013 à 11 h 26 min

L’intérêt, ici, n’est pas de mesurer le contenu dupliqué avec l’extérieur mais avec ses propres contenus.
L’outil initial permet de mesurer le plagiat entre travaux d’élèves. Le référenceur, de son côté, peut s’en servir pour mesurer le taux de similitudes entre ses propres textes afin d’éviter le duplicate content interne. Je pense par exemple aux pages web générées à partir de bases de données (fiches descriptives de produits de catalogues e-commerce, listing d’adresses…).
Stéphane BURAY dit :

17 août 2014 à 19 h 17 min

Le 15 Aout 2014 j ai vérifié qu il n y avait pas de contenu dupliqué j ai eu la très désagréable surprise de constater que les voleurs de contenu avaient de nouveau frappés … Obligé de les appeler un par un afin de demander que le contenu soit modifié …perte de temps monumentale quand on n a ni inspiration ni idée on vole le travail des autres grrrr je suis furax… mon site risque d être pénalisé à cause de médiocre suffisant…
Bruno dit :

2 septembre 2014 à 9 h 42 min

Bonjour,

Comme c’est sympathique de supprimer les liens de certains commentateurs après les avoir acceptés et surtout après avoir profité de leurs nombreux partages!
Christophe BENOIT dit :

2 septembre 2014 à 10 h 45 min

Bonjour,
Merci de prendre note de l’article de 2012 qui explique comment sont gérés les commentaires de ce blog.
De temps en temps, je supprime des commentaires, des liens, je renomme des ancres de liens par le nom des personnes derrière… (et c’est fait de façon arbitraire et pas forcément homogène) afin d’avoir un site qui corresponde aux contraintes qu’imposent certains moteurs de recherche et à mes propres facteurs (paranoïa du moment, temps dispo, énervement suite à afflux massif de spam…).

Le but n’est pas ici de flouer les commentateurs mais de garder une ligne plus ou moins en accord avec ce qui me semble juste.
Je n’oblige personne à venir participer aux discussions mais les règles sont fixés et chacun est libre de commenter en toute connaissance de cause.

Le logiciel Bald’r original

La lutte au contenu dupliqué

Contenu dupliqué et référencement

17 réflexions au sujet de « Détecter le Duplicate Content »

Laisser un commentaire