Quand le big data ne sert à rien

data.path Ryoji.Ikeda - 3 / r2hox via Flickr CC License By

data.path Ryoji.Ikeda - 3 / r2hox via Flickr CC License By

Un développeur explique qu'il a analysé une immense base de données de l'activité des internautes sur Amazon. Sans que cela ne lui apprenne quoi que ce soit d'intéressant.

Le programmeur et écrivain Paul Ford explique dans un article de The New Republic qu’il a récupéré une immense base de données de l’activité enregistrée sur le site d’Amazon: soit 9 millions de produits de son catalogue et 80 millions de commentaires associés de clients, sur une période allant de 1996 à 2014. Il a pu télécharger ces données sur le site d’un chercheur qui les met à disposition.

Un trésor pour l’analyse stratégique puisque, comme le souligne l’auteur, Amazon n’est autre que «l’entreprise commerciale la plus optimisée de l’histoire», ayant su tirer le meilleur parti de l’expertise informatique couplée à une organisation du travail impitoyable pour livrer vos livres, DVD ou vêtements dans les meilleurs délais depuis ses immenses entrepôts.  

Plusieurs jours de programmation plus tard, les résultats sont... décevants. Du brassage de ce «big data», l’auteur annonce n’avoir tiré que des enseignements connus. Les livres pour enfants, les histoires d’ados, de dragons, de sexe et de meurtre sont les plus prisés des clients d’Amazon. Les livres eux-mêmes ne constituent qu’un écosystème particulier du vaste monde d’objets indifférenciés vendus sur le site: «Pour Amazon, ou plutôt pour ses ordinateurs, tout cela constitue un même ensemble. Si vous êtes développeur, la différence entre une bouteille d’huile et un livre est plutôt minimale.» 

Malgré ses tentatives pour «lire» les données de toutes les manières possibles, Paul Ford admet avoir lâché l’affaire face à l’immensité quelque peu effrayante de ces traces d’activité humaine en ligne: «personne ne pourrait lire tous les commentaires d’Amazon au cours d’une vie, et la seule lecture des noms de tous les produits prendrait six ou sept mois.» Bien sûr, le principe du big data est de confier cette fastidieuse lecture à des programmes pour en tirer des régularités qui pourront orienter nos futures décisions. Mais à l’heure ou le big data est communément présenté comme une méthode imparable pour analyser des masses agrégées de comportements individuels et prédire les comportements futurs, l’expérience déçue du programmeur invite à s’interroger sur la possibilité d’un monde régi par cette science des données objet de tous les fantasmes.

Partager cet article