Martin LessardBig data : les mauvaises connexions

Par

 publié le 23 mai 2013 à 15 h 05

C’est Gizmodo qui m’a fait découvrir ce graphique hilarant qui fait le lien entre la chute du taux de criminalité aux États-Unis et l’abandon en masse du navigateur web Internet Explorer.

On peut en conclure que le retrait d’Explorer a fait diminuer la criminalité chez nos voisins du sud.

Erreur. Si on fait ce genre d’amalgame, c’est qu’on ne fait pas la différence entre causalité et corrélation.

Non, le retrait d’Explorer n’a pas fait diminuer (causalité) la criminalité, même si la mesure de la relation statistique entre ces deux variables (corrélation) suit la même courbe.

Dans un monde de plus en plus axé sur les données, produites en surabondance, il nous faudra nous défaire d’un vieux réflexe qui a permis à l’être humain de survivre jusqu’à maintenant.

Nous devons apprendre à restreindre notre propension à déduire des causes là où il n’y a que des corrélations fortuites.

Miroir, miroir, dis-moi quelle est la cause

Depuis le début de l’humanité, nous sommes habitués à voir le monde comme une suite de causes et de conséquences.

  • Ce bouillon dans la rivière indique l’approche des piranhas.
  • Cette piqure de moustique a causé la fièvre de mes enfants
  • Quand j’assomme cet homme de Néandertal avec ma massue, il meurt.

Tant que le monde était « simple », ça pouvait aller.

Aujourd’hui, devant l’accélération des innovations et des transformations sociales et l’accumulation des informations sur lesquelles nous nous basons pour comprendre le monde, on peut dire que notre aptitude naturelle à voir des causes et des conséquences partout nous nuit.

Le citoyen de demain doit maîtriser la différence entre causalité et corrélation.

Corrélation sans cause?

Une étude prouve que les personnes habitant près de pylônes à haute tension sont significativement plus malades que le reste de la population? On met la faute sur les émissions d’ondes! Mais les gens qui habitent sous les pylônes sont aussi en moyenne plus pauvres (on connaît le lien santé-pauvreté). Peut-on conclure alors que la corrélation exposée dans l’étude est la cause première?

Autre exemple. Nous allons au restaurant un jour, et le lendemain nous sommes malades. Nous faisons rapidement le lien entre les deux événements. Mais, parfois, nos intuitions nous jouent des tours : dans ce cas-ci, nous sommes tombés malades parce que nous avons serré la main à un collègue malade la veille. La cause est moins évidente.

Avec la montée des données volumineuses et de tous ces outils d’analyse en temps réel des foules, des mouvements, des transactions, notre monde est devenu plus complexe à interpréter.

Or ces données servent à comprendre le monde de demain. Et ce monde est compréhensible uniquement pour les initiés.

Big data, grande corrélation

Dans une entrevue sur la balado de l’émission Spark à la CBC, Viktor Mayer-Schönberger, auteur d’un livre sur le sujet disait que l’analyse de données très volumineuses ne permet pas toujours de connaître la cause, mais simplement le lien, la corrélation entre deux choses, entre deux événements.

Google Flu, le service qui prédit l’éclosion de la grippe sur un territoire donné, ne fait que remarquer la corrélation entre les recherches en ligne et les cas déclarés de la grippe. Il n’y a aucune indication de causalité. Pourtant, notre cerveau ne peut s’empêcher de faire des liens de causalité, dit-il.

On ne connaît pas encore assez la statistique. On ne maîtrise pas encore très bien de façon intuitive la corrélation, une prédiction dont la cause n’est pas identifiée.

Avec toutes nos données en ligne, sur les plateformes sociales, nos déplacements enregistrés, nos communications, le big data permet de créer d’immenses quantités de données qui sont corrélées. Ça nous donne des statistiques sur la société, sur notre environnement, mais pas toujours les réponses à nos questions primaires de causalité.

Les problèmes commencent quand on mélange les deux, avertit Viktor Mayer-Schönberger, quand on utilise la corrélation pour deviner la cause. On risque de faire de mauvaises connexions. On risque de faire du profilage, de ficher les gens pour des corrélations qui n’ont rien à voir avec la véritable cause.

Voir des liens, sans les comprendre?

Nous sommes la première génération qui accumule, gère et analyse autant d’information sur nous et sur notre environnement. Même le dernier quidam sur Facebook a plus d’information sur sa communauté en une journée qu’un villageois du Moyen-âge durant toute sa vie.

Mais, naïvement, on analyse encore notre réalité avec des méthodes du passé. D’où pensez-vous que sortent toutes les théories de la conspiration?

Ce qui s’ouvre devant nous ne peut pas être simplement appréhendé avec nos intuitions…

Interpréter ce monde par les données demande d’acquérir de nouveaux réflexes, donc une éducation aux logiques statistiques et probabilistes, donc une pensée rationnelle, scientifique.

Sinon, c’est le monde de demain, faites de corrélations, qui échappera aux simples citoyens.

Futur, Société