Content-spinning, logique court-termiste ?

Le référencement naturel repose sur 3 grands piliers : l’architecture du site, le contenu et les liens.

Le contenu peut être publié sur ses propres sites mais aussi à l’e2xtérieur sur des sites tiers. Mais ce contenu doit être unique sous peine de ne pas être indexé par les moteurs de recherche. Et c’est logique. Les moteurs de recherche cherchent à proposer aux internautes du contenu riche et varié : pour l’internaute, quel serait l’intérêt d’avoir plusieurs fois le même texte publiés sur différents sites web ?

contenu dupliqué en référencement web
Tous identiques ?

Dur dur d’avoir des contenus variés

Pour le propriétaire d’un site par contre, c’est pénible. Écrire nécessite d’avoir du temps et un minimum de talent. La tentation de sous-traiter, d’externaliser ou d’automatiser cette tâche est donc régulièrement questionnée.

La réponse du spin

Les partisans de l’approche « automatisation » connaissent le content-spinning qui consiste à générer un texte maître (master-spin) rempli de conditions, de tournures de phrases et de synonymes permettant de générer des dizaines de contenus non identiques de façon plutôt facile. On trouve ainsi des outils et des prestataires dédiés à cette tâche. Le résultat peut être très abouti ou au contraire vraiment sale (qualité ou petit prix il faut choisir).

Duplicate content et near duplicate content

Mais comment gérer le problème du contenu « proche » ? Ok, le content spinning évite d’avoir du contenu dupliqué exact mais si on imagine que les algos sont de plus en plus performants (machine learning ?), pourquoi ne verraient-ils pas que le sens est le même ? Si, à partir d’un master-spin on génère plusieurs dizaines d’articles, à partir de quel moment les robots vont-ils comprendre qu’il s’agit du même texte ré-écrit ?

Cette question se pose aussi pour la rédaction à la main. Ce n’est pas parce que la tâche est manuelle que la proximité sémantique est éloignée et que l’on passe à travers les différents filtres.

Et lorsque Google arrivera à identifier tout ça ?

Les idées développées, les arguments avancées (peu importe l’ordre)… je suis certain que l’on peut trouver des similitudes et faire des rapprochements. Est-ce que le coût que ça engendre en temps de traitement chez Google vaut le coup ?

Pour l’instant peut-être pas mais si on se retrouve d’ici à quelques années à devoir nettoyer tout ça comme à l’époque ou les liens étaient déposés en masse aux quatres coins du web, quel est l’intérêt ?

Photo : Pascal

7 réflexions au sujet de « Content-spinning, logique court-termiste ? »

  1. Quand je voix le nombre de sites de rencontres qui rankent avec des techniques de content spinning, et ce depuis des mois / années, je me dis que ce genre de technique reste encore d’actualité, malgré les brain rank et autres mises à jour de l’algo de GG en France …

  2. Oui et qu’en est-il des 2-3 points qui suivent :

    • Ces sites durent-ils longtemps ? Sont-il pensés comme des outils jetables ou des supports qui seront encore là dans quelques années ?
    • Le trafic vient-il principalement des moteurs de recherche ?
    • Ces sites sont-ils suffisamment visibles pour mériter une action de la part des moteurs ?

    Et comme disent tous les prospectus financiers : « Les performances passées ne préjugent pas des performances futures ». Je vois ici un vrai risque. Si ça marche, continuons ainsi. Et puis un jour, patatras. Et bien malin celui qui saura arbitrer à temps : trop tôt, c’est du gachis de ressources, trop tard, c’est trop tard.

  3. Bonjour Christophe,

    En préambule, je précise que je travaille au sein d’une entité dont la spécialité est justement le content spinning (mais du content spinning de haute qualité). Donc bien sûr, même si j’essaye d’être objective, mon discours est partial. L’avantage c’est que ce commentaire émane d’une personne qui connait le sujet à fond.

    Vous ouvrez un vaste débat en évoquant la qualité du web, les contenus « uniques », utiles à l’internaute, etc. Dans les faits, on sait tous qu’il y a un nivellement qui se fait et Google en est responsable à plus d’un titre. La plupart d’entre nous a passé beaucoup de temps à travailler sur un site « chéri » au sein duquel on a soigné le contenu aux petits oignons et autour duquel on a laborieusement gagné des liens parfaitement légitimes, en provenance de sites dans la même thématique, pour s’apercevoir que Google semblait le dédaigner au profit de sites bien moins qualitatifs. Bref, c’est à ranger dans le même placard que l’idéalisme dans les relations amoureuses, tout ça 🙂

    Le content spinning version 2017 est d’une efficacité redoutable. Cela s’est fait grâce à une refonte complète du procédé, avec l’apport de rédacteurs de haut niveau, qui exécutent la majeure partie du travail en manuel, avec des outils d’aide à la production qui les rendent plus efficaces mais sans nuire à la qualité finale, et grâce à des data-scientists et des spécialistes des algorithmes (une branche des sciences statistiques, parait-il) qui amènent à cette technique rédactionnelle spécifique la puissance des mécanismes combinatoires associés à une lecture experte des brevets déposés par Google dans ce domaine. Concrètement, pour dédupliquer des fiches produits, le content spinning est absolument parfait et les sites e-commerce qui ont fait appel à cette technique ont vu leurs courbes de trafic grimper de manière impressionnante. Tout ce qui peut s’apparenter à une fiche produit est concerné : immobilier, rencontre, etc.

    Ensuite, il y a les réseaux de sites. Et comme vous le savez, la plupart des sites d’un réseau ne sont pas « là » pour se positionner en 1ère page des moteurs de recherche. Donc la pollution qu’ils engendrent est absolument marginale. Et d’ailleurs, trouvez-vous que tout soit utile à l’internaute et bon à lire sur les blogs où les articles sont à priori tous rédigés à la main ? Il y aurait tant à dire sur la qualité des contenus dans le web mais à mon sens, les titres putaclics et tout ce qu’on trouve servi par Outbrain, Taboola et consorts sur des médias de tout premier plan me pose bien plus problème car là, on force les gens à voir du contenu de merde sur des supports où ils sont en droit de s’attendre à tout à fait autre chose.

    Amicalement,
    Valérie.

  4. Bonjour,
    J’attendais votre commentaire ;-).
    Je sais que le content-spinning marche bien. Je constate aussi que l’utilité de certains contenus écrit à la main est tout à fait relative (pour rester poli) et que de plus en plus, je me demande si ce que je lis est l’oeuvre d’un cerveau ou d’un algo.
    Mais je me pose surtout la question du « jusqu’à quand ? ». Les CP ont chuté, les annuaires sont sur la ligne jaune, les pages satellites et les textes à trous sont pénalisés. La génération automatique de contenus ne va-t-elle pas finir de la même façon ? Entre l’intérêt pour l’internaute (fondamental pour Google) et l’interdiction de l’automatisation (toujours selon Google), les contenus spinnés sont aujourd’hui du bon côté de la barrière. Mais cela va-t-il durer ?

  5. Attention, je vais vous faire une réponse fleuve 🙂

    Je partage totalement le fond de vos questionnements mais il n’y a pas que Google qui évolue, les SEO s’adaptent, leurs méthodologies et leurs outils également.

    Une partie centrale de l’algo de Google repose sur la détection d’anomalies statistiques. Par exemple : 500 liens ont été créés en l’espace de 6 semaines vers ce site alors qu’il n’a pas ce trafic ? Plus que suspect ! Ou alors, 80 sites (de CP, par exemple) envoient des liens sortants à plus de 70% vers les mêmes noms de domaine ? Comme c’est bizarre ! Ou alors, 80% des sites qui envoient des liens vers ce nom de domaine ont un whois masqué et ont été créés ou rachetés en l’espace d’un an ? Bref, on voit bien qu’avec un peu d’imagination, d’intelligence et d’expérience, on peut arriver à intégrer dans l’algo des élémen et des alertes statistiques redoutables d’efficacité pour pénaliser ceux qui s’adonnent à des techniques de référencement sans prendre ces points en compte (et bien d’autres au passage).

    Ceci étant dit, certains contenus sont destinés à être remplacés après un délai assez court (saison, année, parfois plusieurs années). C’est le cas des fiches produits, typiquement, ou des contenus informatifs qui habillent des données variables. On utilise donc ce qui fonctionne aujourd’hui. On s’adaptera si demain ça ne fonctionne plus aussi bien. C’est aussi ça le référencement, vous le savez mieux que moi sans doute : on observe, on apprend, on progresse et si ça bouge, on s’adapte.

    Pour beaucoup de sites, le choix du content spinning se fait sur la base de calculs très simples : faisabilité/délai/coût. Peut-on faire rédiger plusieurs milliers de fiches produits chaque année par une armée de rédacteurs ? Sous quel délai ? À quel coût ? Bien souvent, s’offrir une armée d’une centaine de rédacteurs à temps plein, ce n’est financièrement pas possible. Le plus drôle dans l’histoire c’est que comme vous l’avez souligné, rien ne garantit que des textes produits un par un seront forcément meilleurs ou plus uniques qu’en les générant à partir d’un spin et en les filtrant ensuite pour ne conserver que les textes les plus éloignés.

    Contrairement à ce que pensent encore certaines personnes, les textes produits par le content spinning ou la génération automatique sont indétectables. Nous sommes justement en train de monter une opération qui le prouve et qui sera déclinée sous la forme d’un jeu-concours. Nous avons commandé auprès d’une plateforme de rédaction des textes 2*, 3*, 4* et 5* sur un sujet que nous avions traité avec un spin (5* étant le niveau de qualité maximum qui puisse être commandé). Nous avons ensuite demandé à des personnes de tous profils de classer ces textes par niveau de qualité. Dans 96% des cas le texte généré par notre spin s’est positionné entre la qualité 3* et 4*. Il s’est même classé au-dessus du 5* dans 3% des cas et entre le 2* et le 3* pour 1% des personnes interrogées. Bref, la qualité est là, ils se fondent complètement.

    En ce qui concerne les taux de similitude, si on les mesure en appliquant les principes que Google a déposés par brevet, on arrive à obtenir des milliers de textes ayant un taux de similarité maximum de 15%. C’est très bas. Concrètement :

    Phrase 1 : Voici une phrase composée de dix mots qui se suivent.
    Phrase 2 : Les dysfonctionnements concernant les injecteurs sont généralement causés par l’une de ces dix causes.

    Taux de similitude entre ces 2 phrases : 20%. En effet, les seuls mots communs entre ces 2 phrases sont « dix » et « de ». On a 10 mots dans la 1ère phrase, 2 mots en commun sur 10 = 20% de similitude. Et pourtant ces 2 phrases n’ont vraiment rien à voir, n’est-ce pas ? 15% de similitude maximum pour les 2 articles les plus proches au sein d’un lot de plusieurs milliers d’articles, c’est donc vraiment très bas et c’est sans doute ce qui explique que le content spinning -à ce niveau de qualité-, ait maintenu son efficacité sans jamais broncher, malgré les filtres qui se sont succédés depuis 2010 (Panda, Penguin, RankBrain, etc.).

    Je fais une parenthèse pour évoquer la question des annuaires que vous avez mentionnés comme étant à ranger dans les supports révolus. Il faut noter qu’ils étaient à 95% construits sur la base des mêmes scripts. Il était facile pour Google de dévaluer les liens posés sur l’ensemble des sites utilisant ces scripts. Il est à noter au passage que les annuaires qui fonctionnent encore aujourd’hui (qui ont un impact SEO je veux dire) utilisent pour la plupart des scripts sur-mesure.

    Quant aux sites de CP, ils fonctionnent très bien tant que l’on respecte certaines conditions, à commencer par celle-ci : ne les lister nulle part en tant que sites de CP 🙂 Un site de CP version 2017 peut d’ailleurs être rangé dans la même catégorie que bien des blogs acceptant le guest-posting, des sites acceptant des publications sponsorisées et des réseaux de sites si ceux-ci sont réalisés en prenant toutes les précautions requises. Il y a juste un certain nombre de précautions à prendre pour qu’ils paraissent naturels.

    Pour revenir à la production de contenu, ce qu’il faut avoir à l’esprit c’est que l’on dispose aujourd’hui d’une palette de services rédactionnels qui comble tous les besoins :

    > On veut du contenu engageant ? Des articles qui vont véhiculer une image, séduire, convaincre, stimuler des interactions ? Seul un rédacteur expert pourra les produire. Mais c’est (très) cher et assez long si on a besoin de quelques dizaines voire centaines d’articles de ce niveau de qualité. À moins de les répartir entre plusieurs rédacteurs.

    > On a besoin de contenu informatif, qui sera lu rapidement par l’internaute ? De fiches produits, de descriptions diverses, de textes pour le SEO (principalement destinés à être publiés sur des sites extérieurs pour augmenter le nombre de domaines référents) ? S’il en faut plusieurs centaines (voire plusieurs milliers dans des thématiques concurrentielles), la 1ère option devient alors trop coûteuse. Est-on sûrs que des liens placés sur des articles de top qualité enverront plus de jus ? Notre expérience ne nous a pas conduit à cette conclusion.

    On peut certes faire appel à des rédacteurs pour ce type de textes (oui, leur boulot n’est sans doute pas sympa tous les jours !), mais si vous voulez les produire à un coût plus abordable, gare aux rédacteurs offshore, à leur vocabulaire limité, aux nombreuses fautes qu’ils commettent et aux tournures un peu exotiques voire carrément incompréhensibles qu’ils produisent ici et là. À leur décharge, il faut bien reconnaître qu’ils subissent un rythme de travail abrutissant, qui ne leur permet pas de se documenter correctement sur les sujets qu’ils abordent.

    On a deux autres options pour produire ces textes et ces deux options fonctionnent vraiment bien aujourd’hui (et depuis des années pour la première) : le content spinning de qualité et la génération automatique. C’est la dimension du projet, ses contraintes et ses spécificités qui permettront de définir la meilleure solution au cas par cas.

    Amicalement,
    Valérie – SpinWave.

  6. Avec les particularités propre au web, mais aussi à la rédaction de contenu, il sera très difficile pour Google de trouver ce qui est réalisé pour le SEO et ce qui est réellement fait pour l’internaute.
    Il suffit de regarder du côté de l’AFP, des places de marché ou encore des textes à trous qui fonctionnent encore sans souci pour les très gros sites…
    Ou se trouve la limite ? Pour le moment, elle est du côté des finances de Google et des coûts associés au traitement des données. 😉

  7. Je pense sincèrement qu’il va devenir de plus en plus difficile de faire du content-spinning, avec l’évolution du machine learning qui va faire de l’IA un outil suffisamment intelligent pour détecter la « supercherie ». Mais bien sûr comme les techniques de content-spinning évoluent aussi, c’est un éternel bras de fer numérique…

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *