Curation par algorithme, le rêve déçu de la toute-puissance de la machine

Capture d'écran Netflix.

Capture d'écran Netflix.

L’avenir de la critique est-il entre les mains des «machines»? Deuxième épisode de notre série sur l'avenir de la recommandation à l'ère numérique.

Cet article de Frédéric Martel pour Slate s’inscrit dans un programme de recherche sur la «Smart Curation» qu’il coordonne à l’université des arts de Zurich (ZHdK) et d’une mission d’expertise du Centre national du livre (ministère de la Culture, Paris). Il sera repris dans la réédition en poche de son livre Smart, Enquête sur les internets
Retrouvez le premier épisode: Le critique culturel est mort. Vive la smart curation!

Retrouvez le troisième épisode: La smart curation est à inventer

L’avenir de la critique culturelle est-il entre les mains des «machines»? Les critiques de cinéma, de musique, de livres ne font plus vendre. Ils ne sont même plus lus! À leur place: les algorithmes de recommandation de Spotify, Netflix, Amazon, YouTube ou Apple Music. Pourtant, si les critiques traditionnels sont voués à disparaître, la prescription des machines reste aléatoire et insuffisante. Il est temps d’imaginer une nouvelle critique avec un «double filtre» qui combine la puissance des algorithmes et le jugement de la recommandation humaine. C’est ce que je propose d’appeler la «smart curation».

76.897 genres ! Lorsque les journalistes du magazine américain The Atlantic ont découvert ce secret de Netflix, ils n’en sont pas revenus. Leur enquête originale, réalisée à partir des URL des films consultés, a permis de décoder l’algorithme du géant américain. Car le site qui propose du cinéma et des séries en streaming a bâti un système très sophistiqué pour proposer à ses abonnés des recommandations «customisées». Grâce à 600 ingénieurs à temps-plein regroupés à Los Gatos, dans la Silicon Valley, Netflix a mis au point un algorithme basé sur des catégories prédéfinies de genres: les fameux 76.897 «personalized genres» ou «micro-genres», jusque là tenus secrets. 

«Witty Dysfunctional-Family TV Animated Comedies»

L’équation générique de chaque contenu correspond, en gros, aux données suivantes qui sont autant de «tags»: région du contenu + adjectifs du genre + nom du genre + basé sur… + qui se situe… + adapté/basé sur… + sujet du contenu + âge type du public cible etc. À partir de ces tags, des catégories sont moulinées par les algorithmes et apposées sur chaque contenu, ce qui donne 76.897 micro-genres aux noms délirants, comme par exemple: «Witty Dysfunctional-Family TV Animated Comedies» ou «Quirky TV Shows Featuring a Strong Female Lead».

Ce faisant, l’abonné de Netflix se voit associer automatiquement, en fonction de ses premières consultations sur le site, à une catégorie de films. De nouvelles recommandations lui seront faites par la suite en fonction de ces micro-genres dans lesquels son «désir» aura donc tendance à être cantonné. Cet avantage à la fois quantitatif et qualitatif de Netflix lui permet aussi, désormais, d’essayer de prédire les goûts du public pour ses séries, comme House of Cards, Orange is the New Black ou Sense8, et d’écrire les scénarios en fonction de ces résultats. 

Partout, des suggestions «personnalisées»

Le cas de Netflix n’est pas isolé. La plupart des géants du net ont recours désormais à des algorithmes de recommandation pour le filtrage du web: Amazon (avec Amazon Prime), Facebook (avec son newsfeed piloté par l’algorithme EdgeRank), Apple (avec iTunes Radio et Apple Music), ou Google (avec Google Play et Music Key). L’algorithmie de prescription est également au cœur des modèles de services culturels illimités en streaming, Spotify, Deezer et Pandora pour la musique, Steam et Twitch pour le jeu vidéo ou encore Scribd et Oyster pour le livre. Il est à noter que ces services illimités en streaming  indépendants» s’appuient sur le cloud et, le plus souvent, sur Amazon Web Services, le principal cloud, celui qui a popularisé l’expression dès 2006 et démocratisé son usage.

Cette révolution a été rendue possible par l’invention du «cookie», un mini-programme qui permet de reconnaître un utilisateur

Grâce à des algorithmes puissants et constamment affinés par les comportements des utilisateurs –ce que l’on appelle le «collaborative filtering»–, les sites et applications proposent donc à leurs abonnés des suggestions basées sur les ventes générales et les tendances du marché mais aussi sur leurs habitudes personnalisées de consommation (c’est le fameux: «Vous aimerez aussi» d’Amazon).

Du cookie au «Long Click»

Face à la mutation annoncée du critique traditionnel, certains pensent que les algorithmes, combinés aux big datas, vont devenir les prescripteurs culturels de demain. Ils pourront même apporter aux internautes, selon les pronostics les plus optimistes, des recommandations que les êtres humains n’étaient pas capables de faire sans software ni puissance de calcul. Les mouvements de l’opinion peuvent être perçus; les artistes qui sont en train de percer sont repérés; les niches particulières sont découvertes.

Cette révolution a été rendue possible par l’invention du «cookie», un mini-programme qui permet de reconnaître un utilisateur: les sites utilisent ce «mouchard» pour garder en mémoire l’historique de ses activités. Cette innovation majeure, que l’on doit, dès 1994, à un ingénieur de Nescape, Lou Montulli, permet aujourd’hui de nourrir la plupart des algorithmes de personnalisation. On parle alors de «Long Click» pour résumer cette mutation: lorsque l’on surfe sur Internet, en cliquant simplement sur un contenu, en «likant» un article, ou en «retweetant» un message, on contribue ainsi, sans le savoir, à nourrir différents algorithmes. Lesquels conservent les données de l’internaute et peuvent en déduire ses centres d’intérêts ou ses préférences d’achats en ligne. En retour, les algorithmes permettent une «customization» des réponses (leur personnalisation) et un ciblage publicitaire sur mesure, ce qui a ouvert la voie à toutes les innovations récentes et spectaculaires de la publicité en ligne ou du social marketing.

Distorsions dans la recommandation

Les algorithmes de recommandation ne sont pourtant pas infaillibles. Ils ne sont pas nécessairement «justes» non plus, tant les distorsions de recommandation existent. Il y a d’abord, le problème de leur manipulation à des fins commerciales. On le sait peu, mais comme l’a révélé une enquête de George Packer dans le New Yorker, le géant américain Amazon utilise sur son site un système de mise en avant baptisé –bel euphémisme– «Co-Op». Ces fameux «cooperative advertising agreement» se traduisent en «recommandations», présentées comme le résultat de critères objectifs d’un algorithme, alors qu’elles sont en réalité de la publicité financée par les éditeurs. 

Qui n’a pas constaté, qu’après avoir écouté un certain type de musique, l’algorithme avait tendance à lui recommander indéfiniment le même genre musical

Cette manipulation, non connue des clients, explique peut-être en partie la relative inefficacité des suggestions d’Amazon qui se traduisent moins qu’on ne le dit en actes d’achat. Amazon ne propose pas ce système de «pay-for-display» sous la forme de publicités mais il négocie âprement avec les éditeurs, en marge des lois anti-concurrentielles, un pourcentage supplémentaire sur les ventes réalisées par ce biais –de 3 à 5%–, lequel peut atteindre au total, par exemple avec Random House, 53% du prix d’un livre.

Un manque de sensibilité

Un deuxième type de distorsion de recommandation provient des limites mêmes de l’algorithmie. Les «machines» excellent dans toutes les formes de mesure, d’agrégation, les statistiques d’usage, le recensement des historiques de consommation, l’évaluation de la satisfaction, le traitement des données de masse, etc., mais peinent à prédire les comportements et les goûts, à choisir, ou, plus encore, à juger les émotions et les sensibilités. Imbattables pour trouver le meilleur prix d’un billet d’avion ou d’une chambre d’hôtel, elles anticipent mal, contrairement à ce que l’on croit parfois, la prescription culturelle.

Qui n’a pas constaté, sur Pandora, Spotify ou Deezer, qu’après avoir écouté longuement un certain type de musique, l’algorithme avait tendance à lui recommander indéfiniment le même genre musical? L’algorithme n’innove pas, ne s’aventure pas, n’imagine pas, ne fait pas d’associations d’idées, ce qui le conduit inexorablement vers des recommandations de plus en plus étroites. Ce phénomène d’usure, bien connu des économètres sous le nom d’«attrition», a tendance à réduire les choix, surtout si l’utilisateur ne fait pas connaître son avis. On parle d’«algorithmes d’enfermement». Pour retrouver de la diversité, les ingénieurs réintègrent alors artificiellement de temps en temps des propositions musicales aléatoires, décalées, pour susciter la réaction de l’utilisateur et permettre à l’algorithme de se renouveler.

La problématique de l'éclectique

De manière générale, les algorithmes n’arrivent pas à percevoir les attentes des utilisateurs qui ont des goûts éclectiques, dits multi-genres, ou ceux qui évoluent constamment. Ainsi, on peut vouloir écouter telle musique, du hip-hop par exemple, le matin au réveil, mais préférer la pop au travail, la salsa au volant d’une voiture et finalement du «smooth jazz» en se couchant –autant de situations, de sensibilités et d’humeurs que l’algorithme ne sait guère anticiper.

Richard Wagner sur Spotify

Le cas de la musique classique est plus révélateur encore. Spotify et Deezer sont d’abord critiqués pour leur présentation chaotique des titres: il est en effet très difficile d’écouter les morceaux d’un opéra dans le bon ordre, ou les symphonies de Beethoven les unes après les autres. 

Quant à choisir son interprétation, son soliste ou son chef d’orchestre –Martha Argerich ou Sviatoslav Richter au piano, Furtwängler ou Karajan pour diriger Wagner–, c’est une gageure. La faute aux métadonnées, souvent présentées de manière très insuffisantes, mais également aux algorithmes qui ne savent pas encore bien classer la musique classique ou l’évaluer. 

«Ces algorithmes ne marchent pas. Ils ne traitent pas assez de données, fonctionnent par échantillon ou avec des formes de sérendipité. Ceux qui les programment ne comprennent pas la singularité du classique. Surtout, ils ne font pas assez de curation», m’explique Klaus Heymann, le fondateur international du portail de musique classique et de jazz Naxos (interrogé à Hong Kong). 

Du quantitatif plus que du qualitatif

Pour les niches particulières, Heymann en est convaincu, la curation sera décisive. Et on aura besoin, pour la musique classique, comme pour les autres genres, selon la formule du critique musical du New Yorker, Alex Ross, d’une véritable «esthétique et éthique du streaming».

 Les «filtres» s’améliorent, les mots clés et les métadonnées s’affinent, mais les résultats restent toujours aussi décevants

On retrouve ces distorsions de recommandations avec Netflix et Amazon. Même quand les critères sont affinés, que la technique s’améliore et que les algorithmes se mettent à «apprendre», les résultats restent plus quantitatifs que qualitatifs, et finalement très impersonnels. Ils produisent ce qu’on appelle dans le jargon du «bruit», c’est-à-dire des données et des contenus non pertinents. 

Pour une part, cela vient du fait que le «data mining» –ou l’art de la collecte des données– fonctionne sur la base d’échantillons, faute de la puissance de calcul nécessaire pour traiter toutes les données collectées. Les résultats font l’objet de corrections permanentes. Cela rend les recommandations, déjà complexes à proposer, plus précaires encore. Les «filtres» s’améliorent, les mots-clés et les métadonnées s’affinent, l’agrégation automatique fait des progrès, mais les résultats restent toujours aussi décevants, finalement peu personnalisés –sans chair ni «aura».

Une masse d'informations ingérable

S’ajoute ici, un autre problème, qui est celui des limites des «filtres». Même lorsqu’ils sont délibérément sélectionnés par les usagers, les filtres produisent du bruit. Ceci explique, pour une part, l’échec des flux RSS comme du Google Reader et, à terme, le probable épuisement des podcasts. Dans ces trois cas, les recommandations se heurtent à la profusion. Faute de temps, on ne peut plus humainement consulter tous les contenus listés par les flux RSS ou proposés par le Google Reader. Les podcasts risquent de connaître le même sort: on peut bien s’y abonner librement et gratuitement, mais on n’a plus le temps de les écouter au fur et à mesure qu’ils s’accumulent dans un iPod ou un smartphone. Au «filtre», initial, il faudrait donc ajouter une nouvelle couche de «recommandation».

«Le problème du Google Reader ou des fils RSS, c’est la masse d’informations, explique Alistair Fairweather. Au début, on trouvait ça bien, mais très vite on a été noyé par la quantité. La pertinence diminuait et l’abondance devenait insupportable. La recommandation permet de régler le problème de l’avalanche de contenus. Et elle redonne paradoxalement aux internautes une fonction active: faire des choix, ne plus être passifs. La recommandation peut nourrir les conversations et aider à faire des choix.»

La recommandation à marche forcée

Reste l’immense champ d’analyse des distorsions de recommandations sur les réseaux sociaux. Le cas de Facebook est ici révélateur. Contrairement à Google, Apple ou Amazon, Facebook est le seul des géants du net à ne pas vouloir vendre directement de contenus culturels. À la place: les abonnés de Facebook peuvent faire des «recommandations» à leurs «amis» et ses partenaires commerciaux des «suggestions» basées sur des accords marketing (Facebook a pour clients privilégiés Netflix pour la vidéo, Spotify pour la musique, Zynga pour les jeux vidéo, les studios Warner, Miramax et Lions Gate pour le cinéma, le Washington Post, BuzzFeed, Vice et Yahoo pour l’information, Ticketmaster pour les concerts, et plusieurs autres marques pour les voyages ou la restauration). 

La mobilité et la géolocalisation sont de plus en plus souvent prises en compte, puisque la moitié du milliard d’utilisateurs de Facebook y accède aujourd’hui sur portable

S’ils n’ont pas bien vérifié leurs paramètres de confidentialité sur Facebook –complexes, nombreux, variables, élastiques et, hélas, souvent incompréhensibles–, les utilisateurs de Spotify ou de Netflix peuvent alors s’étonner que leurs playlists musicales ou leurs choix cinéphiles se retrouvent postés automatiquement sur leur compte Facebook, quasiment à leur insu. 

Edgerank et ses 100.000 paramètres

Quant à la nouvelle fonctionnalité «Instant Articles», elle vise à accroître ces partenariats selon le modèle «visibilité contre publicité» (les clients de Facebook lisent ces articles dans leur Timeline mais en restant sur la plateforme elle-même, sans possibilité de cliquer ; en échange les médias obtiennent un partage de publicité accru). En fin de compte, les réseaux sociaux peuvent contribuer à recommander des contenus liés à des accords commerciaux, au risque ici d’un certain brouillage entre la prescription et le marketing.

D’autres évolutions récentes de Facebook provoquent des distorsions de recommandation. À l’image de Google et de son algorithme PageRank, Facebook a mis en place depuis 2006, un «newsfeed» géré par l’algorithme EdgeRank. Celui-ci comprenait initialement trois critères: l’affinité de l’utilisateur, l’importance du contenu et un facteur de temps. Depuis, EdgeRank s’est affiné, combinant désormais de multiples critères, jusqu’à 100.000 paramètres constamment mis à jour. Parmi ceux-là, la mobilité et la géolocalisation sont de plus en plus souvent prises en compte, puisque la moitié du milliard d’utilisateurs de Facebook y accède aujourd’hui sur portable (et la moitié de ses revenus provient également de la publicité mobile).

Ciblage limité

Plus récemment, Facebook a fait le choix d’«éditorialiser» les contenus de ses usagers, en particulier les publications des comptes «Pages» (ceux gérés par des médias, des marques ou des personnalités, illimités en nombre de fans), mais aussi, dans une certaine mesure, celles des comptes personnels (limités à 5.000 amis). Désormais, lorsqu’un média, une entreprise ou un artiste poste un message sur sa page Facebook, l’algorithme ne lui permet plus d’atteindre qu’un pourcentage infime de ses propres fans (autour de 5 à 7%). Facebook limite donc délibérément la portée des posts et conditionne, via son algorithme, la diffusion d’un contenu soit à son buzz initial (si le message est liké, partagé ou commenté, l’algorithme en élargit la publication), soit à l’achat d’espaces «sponsorisés». 

Les tweets sont publiés de façon linéaire, en ordre chronologique inversé et en temps réel, mais pour combien de temps?

En d’autres termes: pour atteindre les amis de sa propre page, un utilisateur de Facebook doit désormais acheter de la publicité. De leur côté, lorsque les usagers de Facebook «likent» une page, ils pensent innocemment s’y abonner alors qu’en fait ils nourrissent essentiellement l’algorithme du réseau social et son modèle publicitaire, mais ils ne reçoivent guère dans leur Timeline les messages de la page qu’ils ont pourtant aimée.

Un algorithme similaire existe pour YouTube, Google+ et LinkedIn. En revanche, Twitter conserve le système de publication qui a fait son succès: les tweets sont publiés sans algorithme, de façon linéaire, en ordre chronologique inversé et en temps réel, mais pour combien de temps?

Viralité vs sponsoring

Cette technique commerciale de Facebook met en lumière l’insécurité qui caractérise les réseaux sociaux. À quoi sert-il, par exemple, pour un auteur, un éditeur ou un producteur de film, de construire sa communauté sur Facebook si, sans prévenir, la firme de Menlo Park peut réduire à néant cet investissement et réclamer qu’il se mette à acheter des publicités pour pouvoir atteindre les propres fans de sa «Page»? Le même risque se pose à moyens termes pour la publication de contenus sur Instagram, Pinterest, Path, Tumblr, Snapchat, Meerkat, Periscope ou Vine, etc. 

En fin de compte, les médias, les industries culturelles, les marques et tous ceux qui veulent accroître la visibilité de leurs contenus ou de leurs critiques sur Facebook sont pris à leur propre piège de la «loi du clic»: en ayant tout miser sur leur visibilité sur les réseaux sociaux, ils doivent maintenant payer pour atteindre leur propre communauté. Du coup, les informations ou les recommandations qui deviennent virales sur les réseaux sociaux ne sont plus nécessairement celles qui sont portées par un véritable buzz, par les meilleures idées ou par une plus grande créativité, ni même celles qui sont le mieux repérées par les algorithmes: parfois, ce sont justes les messages les mieux sponsorisés par des achats d’espace.

«F-commerce»

Il y a plus. On le sait peu mais les réseaux sociaux, Facebook et Twitter en particulier utilisent systématiquement les contenus et les recommandations de leurs abonnés, pour leurs études, ensuite commercialisées. On parle par exemple de «F-commerce» pour cette évolution marketing de Facebook. Cela fonctionne en deux temps: d’une part, les algorithmes des réseaux sociaux analysent minutieusement les conversations de leurs abonnés, les photos postées et les vidéos visionnées, et y intègrent de la publicité personnalisée, «contextuelle» et «native». Mêlés aux fils de conversations, sournois même, trompeurs aussi dans leur camouflage 2.0, parfois à la limite du mélange des genres, ces «native ads», «tweets sponsorisés» et autres «promoted trends» paraissent moins intrusifs tout en rapportant beaucoup d’argent (plusieurs centaines de milliers de dollars pour vingt-quatre heures d’exposition sur l’ensemble des comptes Twitter des États-Unis, par exemple). 

Les réseaux sociaux vendent ensuite les données de recommandation des millions de messages échangés chaque jour par leurs utilisateurs. Les annonceurs, comme les responsables des industries créatives, des médias ou des agences de conseil et de mesure d’audience, sont en quête de données précises, et en temps réel, sur les centres d’intérêt des consommateurs, leurs usages, les mouvements de l’opinion, bien au-delà des seuls «trending topics» rendus publics. En fin de compte, les industries culturelles, les marques et les médias qui publient des contenus sur leur page Facebook doivent désormais acheter de la publicité pour atteindre leur propre communauté, avant d’être invités à payer à nouveau, et au prix fort, pour obtenir les résultats des études qu’ils ont eux-mêmes contribué à générer.

On peut penser, comme je le crois, que les réseaux sociaux joueront à l’avenir un rôle majeur dans la prescription et la dissémination des informations relatives à la culture, mais il faut garder en mémoire toutes ces distorsions de recommandation.

Partager cet article