Martin LessardQuand Google Flu Trends éternue, le Big data s’enrhume

Par

 publié le 14 mars 2014 à 11 h 39

Google se targe d’être le champion des données. En 2008, la compagnie avait lancé le service Google Flu Trends, un site de détection de propagation de la grippe en temps réel.

Par une corrélation sophistiquée basée sur les termes de recherches dans son célèbre moteur (comme « grippe », « fièvre »), Google devait être capable de prédire l’éclosion de grippe dans telle ou telle partie du territoire.

Depuis, ce site est présenté comme le parangon des données volumineuses, comme une preuve que les masses de données traitées efficacement pouvaient se révéler plus rapides et plus fiables pour décrire la réalité que les méthodes de collectes traditionnelles sur le terrain.

Le Centre américain de contrôle et de prévention des maladies (CDC) collige les motifs des visites chez les médecins. S’ils sont très fiables, ces constats prennent malheureusement plusieurs jours pour être dressés. Google Flu Trends (GFT), lui, est instantané.

Google Flu Trends échoue au test!

Aujourd’hui, une étude dans le magazine Science* démontre que GFT a, pendant les trois dernières années, toujours surestimé les chiffres durant la saison de la grippe. L’estimation de Google dépassait de 50 % celui de la CDC durant cette période.

Or, justement, s’il y a bien une période où le besoin de données fiables se fait cruellement sentir, c’est celle de la propagation massive de la grippe.

gftdata

Ce graphique produit par les chercheurs illustre comment les résultats de Google Flu Trends (ligne orange) surestiment systématiquement les cas de grippe depuis 2011.

La conclusion que tirent les chercheurs souligne que des statistiques prédictives extrapolées des « grandes données » peuvent être trompeuses s’ils ne sont pas ajustés avec des « petites données » réelles acquises sur le terrain.

L’auteur principal de l’étude, David Lazer, professeur à la Northeastern University, explique que les correctifs à apporter à GFT seraient relativement simples : il faut simplement recalibrer régulièrement GFT à partir des données réelles sur le terrain (CDC).

Autrement dit, GFT + CDC = données plus justes.

L’augmentation des recherches de mots comme « fièvre » ou « grippe » semble reliée à un battage médiatique. Par contre, l’augmentation de cas de grippe dans les établissements de soins de santé ne l’est jamais.

Le danger est de s’appuyer uniquement sur les technologies des données volumineuses, nous avertissent les chercheurs. Ce n’est pas un substitut de la collecte et de l’analyse sur le terrain. Les deux sont complémentaires.

La chute du Big data

Chaque année, Gartner publie un tableau du cycle des technologies où les tendances de l’heure sont placées sur une courbe de maturité.

Dans la dernière, celle de 2013, les données volumineuses se trouvaient placées au « pic de leur buzz » (Peak of inflated expectations).

gartnerhypecycle2013

Avec cette étude sur l’échec de GFT sortie aujourd’hui, il ne fait plus de doute qu’on peut annoncer la « descente en enfer » des données volumineuses (Trough of disillusionnent), la prochaine étape dans l’échelle de maturité, selon Gartner.

L’inflation des attentes entourant les promesses des données volumineuses va maintenant se résorber, et une partie de l’effet de mode se dissipera pour nous faire revenir à un niveau plus réaliste.

Les chercheurs de l’étude sur Google Flu Trends ne dénigrent pas le potentiel des données volumineuses (au contraire), mais ils nous préviennent que ce n’est pas la quantité d’informations en soi qui forme une connaissance juste des choses, c’est la qualité de la boucle de rétroaction et d’amélioration continue qui en est la garantie (notamment en tenant compte des données réelles, et non seulement celles qui sont extrapolées).

De plus, nous avertissent les chercheurs, il faut aussi tenir compte de la transparence des algorithmes utilisés dans les données volumineuses (et de tout projet basé sur les données massives, comme la « ville intelligente »). La science a besoin de répliquer les expériences afin de les valider. Les résultats des données de masse doivent être reproductibles pour être crédibles.

Sinon, sans ouverture, sans transparence, parler de données de masse revient à jeter de la poudre aux yeux, c’est faire passer les données de masse pour de la magie.

La fin de la récré a sonné.

Reproduction de l’étude sur Google Flu Trends (en PDF) sur le site de l’Université Harvard.

Autres billet sur Triplex :

Big data : les mauvaises connexions
Web à Québec : entre les données volumineuses, les microdonnées et Google
Demain, la ville intelligente

Informatique, Société