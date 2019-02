Temps de lecture: 5 min

Depuis le scandale Cambridge Analytica et la révélation de la vente par Facebook de 5.000 données de plus de 230 millions d'utilisatrices et utilisateurs américains à cette entreprise britannique, on connaît l'importance de la protection des données. Le but de Cambridge Analytica était, pour mémoire, de déterminer les profils psychologiques des internautes en fonction des pages likées. Une technique de manipulation utilisée par divers politiciens et notamment Donald Trump pour parvenir à glisser des postes ciblés en fonction de leur profil et de leurs intérêts.

L'an passé, j'avais déjà écrit sur ce thème en racontant l'histoire de David Caroll, un citoyen américain qui avait demandé les données que le président américain lui avait volées. Pourtant, lorsque je me suis retrouvé face à Stiene Praet, ce qu'elle m'a montré m'a quand même fait flipper. Elle a réussi à dresser mon «portrait» (très approchant) sans jamais m'avoir rencontré.

Les prédictions établies par Stiene Praet en fonction de mes «likes» sur Facebook.

Près de 7.000 profils analysés

Dans la vie, la jeune Belge n'est pas mentaliste et ne pratique pas non plus la cafédomancie: elle est doctorante en économie au sein de l'université d'Anvers. Avec Peter Van Aelst (chercheur et professeur en science politique) et David Martens (professeur et directeur du groupe Applied Data Mining), elle a décidé, dans le cadre de sa thèse, de réaliser une étude universitaire afin de prédire nos préférences politiques en se fondant sur l'analyse de nos données Facebook.

Dans ce but, elle a recruté 6.733 volontaires en publiant une annonce dans plusieurs journaux flamands pour atteindre une plus large audience. «Ce panel n'est pas représentatif de la population flamande. De même, nos résultats seraient sans doute plus précis si on recrutait davantage de gens», tempère, d'emblée, Stiene Praet.

Les participants et participantes devaient, d'abord, répondre à un questionnaire et devaient évaluer sur une échelle de 1 à 10 leur positionnement sur l'échiquier politique –de 0 à 3 (gauche), de 4 à 6 (centre), de 7 à 10 (droite). Ils et elles devaient indiquer la probabilité de voter pour les sept partis flamands (de 1 à 10 –de «je ne voterais jamais» à «je voterais assurément» pour ce parti). Les chercheurs ont, ensuite, récupéré les pages que ces personnes avaient likées sur Facebook dans le but de réaliser une analyse prédictive.

D'inexorables biais

Dans 60% des cas, le trio a réussi à deviner si les participantes et participants étaient placés à droite ou à gauche de l'échiquier. Un chiffre qui «peut sembler bas» comme il est écrit dans le papier.

Pour améliorer ce score, les chercheurs veulent clarifier les énoncés du questionnaire pour éviter les erreurs. Il faut rappeler aussi que les résultats dépendent de l'honnêteté et de la subjectivité des répondants.

«C'est l'un des plus gros problèmes. Dans les recherches marketing, on dit toujours que les gens ne disent pas ce qu'ils font et ne font pas ce qu'ils disent. C'est pareil en ce qui concerne le comportement électoral, on l'a vu pendant le Brexit ou durant l'élection de Donald Trump. Et puis les répondants peuvent se tromper dans l'estimation qu'ils font de leur vote. Il y a toujours des biais», assure Matthias Bogaert, enseignant et chercheur en business analytics à l'université d’Édimbourg.

Quoi qu'il en soit, dans 36% des cas, les chercheurs sont parvenus à connaître le parti préféré des volontaires. «C'est toujours un chiffre que l'on doit mettre en perspective car ils ont réalisé des prédictions sur sept partis. En probabilité, tu as 14% de chances d'avoir la réponse correcte. Le score de 36%, est en fait très bon», assure Mathias Bogaert.

D'autant que pourcentage est de 64%, lorsqu'il s'agit de prédire la sympathie vis-à-vis d'un parti (quand quelqu'un accorde «un score de 8 ou plus» à une formation politique).

Les «likes» culturels aussi instructifs que les politiques

Ce n'est pas la première fois qu'une étude universitaire réussit à prédire scientifiquement certains comportements électoraux en s'appuyant sur les «likes» récoltés sur Facebook. Des chercheurs danois y étaient parvenus (avec une précision comprise entre 60 et 70%) grâce à l'analyse des messages postés par des acteurs politiques et des partis.

L'étude belge confirme que les pages à connotation politique (celle d'un homme ou d'une femme politique, celle d'un parti...) comme celles des organisations non gouvernementales (ONG), étaient d'une grande utilité tant les profils de personnes qui avaient liké la page étaient homogènes d'un point de vue politique.

Dans les graphiques ci-dessous, les chercheurs ont situé les différentes pages sur l'échiquier politique en fonction des convictions de ceux et celles qui les avaient likées.

Les universitaires flamands sont allés plus loin en montrant que des pages a priori éloignées du débat politique permettent d'en apprendre beaucoup sur notre comportement électoral. Ils ont quasiment obtenu les mêmes taux de prévision en excluant les pages politiques. «Comme prévu, la performance des modèles prédictifs diminue lorsque le contenu politique est exclu. Cependant, le déclin est plutôt faible», est-il écrit dans le papier.

Parmi les pages qui en disent le plus sur le vote, il y a les bars et les boîtes de nuit fréquentées, l'art et la culture, les livres, les événements ou les festivals que nous suivons.

Au contraire, les émissions de télé, les voyages, le sport ou les médias apportent, en général, moins d'informations sur les convictions politique de leurs abonnés. «On observe aussi que les pages les plus populaires sont souvent situées au centre de l'échiquier. La page de la VRT [l'organisme public flamand de télévision et de radio, ndlr] est, par exemple, aimée par tous les types de profils», explique la chercheuse.

Tout comme Netflix, l'équipe Belgique de football, Barack Obama, les Beatles, Harry Potter ou encore le produit Nutella. «C'est dans les plus petites pages que l'on observe la plus grosse scission», précise la chercheuse. Grâce à ces graphiques, on peut par exemple observer que les fans du club de football de l'Antwerp F.C. sont à droite quand les adeptes du trekking votent plutôt à gauche.

Celles et ceux qui regardent The Big Bang Theory seraient plus enclins à voter à droite que les fans de Six Feet Under. Même combat entre les films Fast and Furious et Inglourious Basterds.

Enfin, en musique, les groupies de Calexico, de Tom Waits ou encore de Radiohead voteraient plus à gauche que celles qui écoutent David Guetta, Dimitri Vegas ou Avicii.

«Vous likez beaucoup de choses»

En téléchargeant mes données et en les comparant à celles des répondants flamands, malgré la différence culturelle, Stiene Praet a pu en déduire plusieurs apsects liés à:

- Mon genre, car j'aimais les pages Family Guy, Rick and Morty, Daft Punk, ACDC... «qui sont plus aimées par les hommes», explique-t-elle.

- Mon niveau d'études car je regarde The Big Bang Theory, Last Week Tonight with John Oliver ou parce que j'écoute le groupe MGMT. Elle connaît également ma tranche d'âge en raison de différentes pages, dont Family Guy.

- Elle m'a classé plutôt à gauche car j'ai appuyé sur le pouce bleu des pages de Tom Waits, Leonard Cohen ou du groupe Eels et pense que je serais susceptible de voter pour Groen, le parti écolo flamand, grâce au New York Times, au quotidien The Guardian ou encore au groupe Balthazar.

Traumatisé par l'oubli du nom d'un groupe ou d'un artiste que j'appréciais, j'avais pris l'habitude de suivre de nombreuses pages sur Facebook. Mauvaise idée... La chercheuse m'a classé du bon côté de l'échiquier même si elle n'est pas parvenue à deviner exactement pour quel parti je voterais.

«Vous likez beaucoup de choses», a-t-elle plaisanté devant mon air étonné. La doctorante belge n'en fait pas autant et pourtant... «Pour moi aussi ça fonctionne. On le savait depuis Cambridge Analytica que c'était possible mais beaucoup de gens n'y croient toujours pas. Pourtant, quand on voit son portrait à travers ces données, c'est beaucoup plus parlant.»