Corrélation et causalité

Il arrive de temps en temps que je réponde « je ne sais pas » à un client. Aveux d’ignorance? Peut-être pas! Explications.

Dans le web et plus particulièrement lors de chantiers autour de la visibilité, de l’amélioration des conversions et de l’exploitation des statistiques qui en découlent, il est très facile de se faire avoir. Alors au programme aujourd’hui, un petit peu de maths.

C’est quoi l’effet cigogne ?

Des observateurs attentifs ont remarqué que lorsque les cigognes nichaient, les enfants naissaient en nombre plus important. Et de conclure hâtivement que la présence des cigognes était la cause de la hausse de la natalité. La réalité est plus banale : Les cigognes préfèrent nicher sur les cheminées de villages plutôt que dans les zones urbaines. Et les taux de natalités sont plus importants à la campagne qu’à la ville.

Il y a bien une impression de liens entre les deux faits. Mais c’est juste une impression. Il y a corrélation mais pas causalité. Les naissances ne dépendent pas des cigognes…

Les exemples d’effets cigognes sont nombreux, parfois plausibles, souvent burlesques. Ainsi, le taux d’équipement d’Internet en Italie entraînerait une hausse des divorces, le nombre de noyades estivales semble lié à la consommation de glaces ou encore le nombre de crimes aux USA s’alignerait sur l’age de Miss Amérique…

corrélation et causalité
On peut faire dire n’importe quoi aux stats

Le cerveau humain nous joue des tours

Nous sommes ainsi fait : notre cerveau aime à trouver des liens entre les choses et les événements. Résidus des temps passés ou la vie était un combat permanent et ou il fallait réfléchir vite et bien pour prendre le dessus dans une situation dangereuse, le cerveau humain a développé la facilité à faire des rapprochements.

Et lorsqu’un événement dangereux guette, il vaut mieux l’avoir prévu à tort plutôt que de se retrouver dépourvu face à ce dernier.

Aujourd’hui, nous vivons avec cet acquis qui nous joue de mauvais tours lorsque l’on a besoin de fournir des explications rationnelles car l’explication évidente ne correspond pas forcément à la réalité.

Relations, corrélation et causalité ?

  • Soit deux événements A et B corrélés (qui semblent être liés)
  • A cause B ;
  • Ou bien B cause A (causalité inversée) ;
  • Ou bien c’est une coïncidence ;
  • Ou bien A cause B et en même temps B cause A (corrélation bidirectionnelle).

Pour dire qu’il y a un  lien de causalité en A et B, la simple corrélation ne suffit pas. La corrélation n’implique pas la causalité.

Si on représente A et B sur une courbe (l’un en abscisses, l’autre en ordonnées), on peut obtenir :

  • Une corrélation positive : Plus il y a de A, plus B augmente (Si A est le nombre de cafés achetées et B le montant des dépenses).
  • Une corrélation négative : Plus il y a de A, plus B diminue (Si A est le nombre de cafés achetées et B ce qui reste dans le portefeuille)
  • Le coefficient de corrélation noté r : Allant de +1 à -1 (suivant la corrélation positive ou négative), il indique si la corrélation est forte ou pas. Un coefficient de corrélation de 0,91 indique une plus forte corrélation positive que si on avait un coefficient de corrélation de 0,76.
corrélation mais pas causalité
Corrélation positive, élasticité et coefficient faible

Corrélations et causalité sur le web

Parce que l’on ne sait pas ce qui se passe, il est facile d’attribuer une perte de position dans Google à une mise à jour de leurs algorithmes. Et à l’inverse, il est aisé d’expliquer que la hausse de trafic est dû aux recommandations que nous avions formulées et qui ont été implémentées.

Le fait est qu’en référencement ou en CRO le travail se fait dans un milieu complexe. Il y a plus de 200 facteurs de positionnement chez Google. Pour influencer l’acte d’achat, le webmarketeur doit travailler sur une multitudes de leviers (le fond, la forme, le moment, l’intention et l’utilisateur à l’autre bout).

Tout cela rend la causalité difficile à affirmer. On constate des évolutions mais on peut rarement affirmer avec certitude le pourquoi. Pouvoir isoler tous les facteurs et apporter une réponse scientifique argumentée et vérifiable n’en vaut tout simplement pas le coup.

Certains s’y essaient tout en mettant en garde : c’est le cas de Moz et de leurs facteurs de référencement actualisés chaque année.

Bien conscient des problèmes évoqués ci-dessus, je réponds souvent par un « je ne sais pas ». Il faut le comprendre dans le sens que lui a donné Platon dans l’Apologie de Socrate  avec le célèbre « Je sais que je ne sais rien » plutôt que comme un aveu d’ignorance.

Lorsque je n’ai pas tous les éléments pour répondre juste ou pour tirer une conclusion qui tient la route alors je dis juste que je ne sais pas. C’est mieux que de faire la malin et de dire une grosse bêtise.

Image : TylerVigen et Psudo

2 réflexions au sujet de « Corrélation et causalité »

  1. Belle démonstration à ressortir lorsque la prochaine agence nous sortira son traditionnel « top 800 des facteurs de ranking » ou la pepite du referenceur « comment google m’a tueR quand j’ai coupé mon Adwords »
    Good job !

  2. Ce qui prouve bien qu’il ne faut pas réagir à chaud quand on a une baisse de trafic en provenance de Google (ou une hausse) et que lorsqu’on fait un test SEO, soit on le fait dans un environnement très fermé, soit on le fait sur plusieurs échantillons avant d’en déduire une causalité réelle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *