Partager cet article

Ce que j'ai appris en lançant un audit de tous mes articles

Focus / Mark Hunter via Flickr CC License By

Focus / Mark Hunter via Flickr CC License By

Mais va peut-être, un jour, conduire à mon remplacement par un robot.

La pratique du quantified self –«soi quantifié», «quantification de soi» ou «métrique personnelle», selon les traductions rarement utilisées–, le fait d'enregistrer, mesurer et analyser ses activités quotidiennes sous la forme de données élémentaires pour ensuite utiliser les résultats comme aide au changement, est une tendance née –surprise!– dans les milieux journalistiques de la Silicon Valley. Elle a connu son petit succès chez les geeks et il est de moins en moins rare de lire un post de blog d'un auteur expliquant comme il a épluché son régime alimentaire à la calorie près pendant un an, ou un sportif amateur contrôlé son activité avec un arsenal d'outils statistiques digne d'un champion qui se prépare pour les prochains JO.

Dans le domaine professionnel, le quantified self s'apparente de moins en moins à la science-fiction et de plus en plus à l'horizon possible des salariés à mesure que ceux-ci disposeront d'outils élaborés de suivi de leur activité –à moins que ce ne soient les outils qui les suivent... Avant l'été, j'ai décidé de prendre un peu d'avance sur le futur et de m'auto-appliquer un exercice d'analyse quantifiée de ma production éditoriale à Slate. Après tout, une partie du quotidien d'un site web est la gestion du trafic et l'optimisation de celui-ci. Les rédacteurs en chef ont les yeux rivés sur ce type de tableau qui mesure la performance globale du site.

J'ai donc demandé à l'entreprise Proxem, dont je connaissais déjà le travail, de se charger de l'analyse[1]. Basée à Paris, Proxem est spécialisée dans l'analyse automatisée de gros volumes de textes. L'entreprise a développé des outils qui scannent, défrichent et ordonnent les montagnes de signes créés chaque seconde sur Internet. Son activité s'insère dans une discipline au croisement de la linguistique, des mathématiques et de l'informatique, qu'on appelle traitement automatique du langage naturel –ce «langage naturel» étant en l'occurrence le nôtre, par opposition à celui des «machines»... Ses clients sont de gros consommateurs ou producteurs de textes: des distributeurs, des assureurs, etc., qui lui demandent d'analyser les interactions écrites internes à l'entreprise ou entre celle-ci et ses clients. Mon cas personnel est, avec un peu moins de mille contenus-articles produits, relativement anecdotique pour du «big data».


Églantine Schmitt, qui travaille chez Proxem et poursuit en parallèle un doctorat en épistémologie sur l'usage des données dans les sciences sociales, s’est chargée de mon dossier. Sa mission était de récupérer, en collaboration avec l’équipe technique de Slate, les 900 et quelques articles que j’ai produits depuis sept ans sur le site, et de les balancer dans sa moulinette à big data pour voir ce qu’il en sortirait. Il n’y avait pas de «brief» précis, car je n’étais pas très familier des outils d’analyse sémantique automatisée, et préférais me laisser surprendre par la machine.

Ce que je savais déjà, ce que j'ai confirmé, ce que j'ai appris

Proxem m'a tout d'abord livré le résultat d'une analyse stylométrique. Contrairement à ce que son nom laisse entendre, il ne s'agit pas de mesurer le rythme auquel je prends des notes ou j'écris des articles, mais d'utiliser des outils qui dévoilent le style de l'auteur, son genre et ses marottes.

Comme l'explique Églantine dans son billet de méthodologie, Proxem propose «un service qui s'appuie sur des corpus de milliards de mots et de ngrams (un terme d'informaticien pour décrire des groupes de plusieurs mots) pour être capable de dire quelles expressions sont très courantes ou très rares dans une langue donnée. Par exemple, l'outil sait que "bon appétit" est une expression courante mais que "descente de gradient" ou "poulpe parabolique" l'est franchement moins.» Donc si vous avez une prédilection pour le «poulpe parabolique» –et pourquoi pas, après tout– l'outil informatique va vite le repérer et identifier en vous le Günter Walraff du poulpe parabolique.

Dans mon cas, outre des noms récurrents peu surprenants comme Marine Le Pen ou Nicolas Sarkozy (on y reviendra plus bas), l'outil a identifié quelques obsessions plus personnelles récurrentes comme les classes moyennes, la France périphérique, la street food ou le pan bagnat, mais aussi l'économie collaborative et l'open space. Une première carte de visite éditoriale se dégage donc de l'analyse initiale.

Le graphe thématique ou le portrait éditorial d'un journaliste

La deuxième famille de visualisations consiste en des graphes qui associent des thématiques proches entre elles. Elle est réalisée à partir des thématiques détectées automatiquement –c'est la beauté de la chose. Ces thèmes sont reliés entre eux par des traits d'épaisseur variable: cela signale qu'ils vont souvent ensemble, comme «Web social» et «Facebook», ou «Nicolas Sarkozy» et... «Affaires politico-financières françaises».

Dans cet usage, on peut dire que le big data visualise ou illustre ce dont on se doute déjà, mais qu'on a du mal à formuler sans le recul des chiffres et de leur mise en forme. Le graphe ci-dessous propose un premier portait sémantique personnel. Il existe un biais dans le choix du corpus, qui est lié au fait que Slate a évolué dans sa manière de ranger les articles de chaque contributeur, mais sans entrer dans ces détails, le graphe donne une bonne idée des grandes thématiques que j'ai abordées ces dernières années.

Trêve de suspense.

Ciquez sur le graphe pour l'agrandir.

Un graphe assez éclectique donc... mais ce qui saute aux yeux, c'est le gros cluster mauve en bas à droite. Cette tâche représente le carburant de la presse d'information et d'opinion depuis bien longtemps. Il s'agit du Front national, et des thématiques qui lui sont associées –les co-occurrences– quand je suis amené à le traiter.

Son omniprésence est une des choses qui m'a le plus surprises. Je m'attendais à trouver beaucoup d'articles sur le FN, parce que j'ai commencé à écrire à un rythme soutenu à Slate en février 2012, soit au moment du démarrage de la campagne de l'élection présidentielle, et ce graphe est la preuve matérielle que le FN a pris énormément de place dans la –ou dans ma– couverture de cette échéance électorale, et plus généralement des problèmes sociaux dans la France contemporaine. Que le FN soit le réceptacle d'une partie des dysfonctionnements de la société n'est pas nouveau, mais son degré d'exposition paraît ici bien plus important que celui d'un parti hors-système. Le traitement de problématiques liées à l'identité explique aussi l'importance qu'a prise le FN, qui s'invite désormais mécaniquement dans tous les débats de ce type.

Ce que repère par ailleurs le graphe ci-dessus, et c'est très intéressant, c'est que quand le Front national fait l'objet d'un article, les thématiques voisines qui émergent sont internes au FN, à l'exception d'une liaison faible avec la thématique Front de gauche. L'enseignement est que quand on aborde le FN, il a tendance à être autoréférentiel, à prendre toute la place de l'article, sans être traité en lien avec d'autres sujets, d'autres partis ou d'autres personnalités politiques.

Le «bencharmarking» de production éditoriale

Même logique d'ensemble, mais cette fois plus poussée avec un troisième et dernier graphe, qui conserve 5% des 3.300 thématiques identifiées lors du scannage de mes articles. On se retrouve avec en gros le top 50 des thématiques les plus récurrentes, et les liens entre ces thématiques. Les ensembles thématiques homogènes identifiés par une même couleur correspondent grosso modo à des «rubriques».

Comment lire ce graphe? Comme s'il s'agissait de la visualisation du réseau social d'un individu. C'est d'ailleurs pour détecter des communautés d'individus qu'on l'utilise en analyse de réseaux sociaux. Ici, chaque noeud correspond non pas à une connaissance de l'individu de référence mais à un thème, chaque lien à un voisinage entre deux thèmes, et chaque grappe à une petite rubrique de thèmes voisins, un peu comme un petit groupe de gens qui se connaissent entre eux et se parlent souvent. 

Ce graphe représente une sorte de portrait sémantique de ma production, mon Moi éditorial quantifié. Après l'avoir montré autour de moi, je l'ai annoté pour essayer d'y mettre de l'ordre et d'associer à chaque grand cluster une sorte de rubrique.

Ciquez sur le graphe pour l'agrandir.

Ce type de visualisation me semble particulièrement utile comme étape préalable à un benchmark de sa propre production. Croisé avec les statistiques de fréquentation des pages d'articles (que je garde pour moi, faut pas rêver non plus!) et une étude comparative des autres médias, le graphe permet en dernière instance d'appuyer une décision stratégique, comme une réorientation éditoriale, un renforcement sur quelques thèmes identifiés comme porteurs et, à l'inverse, un abandon partiel ou total de rubriques soit trop peu «rentables» sur le plan de l'employabilité et du trafic, soit déjà saturées sur la scène journalistique.Il y a fort à partier qu'à l'avenir, ce type d'auto-diagnostic se démocratisera et que les journalistes devront intégrer la production et l'analyse de leurs métriques personnelles. En attendant que les robots ne finissent en dernière instance par nous piquer notre travail.

Je dédie cet article à notre ancien responsable technique, Greg Giglietta, qui officie désormais à la mairie de Paris, avec qui j'ai eu un nombre incalculable de discussions sur le futur du journalisme qui ont inspiré cet exercice. 

1 — Je précise que cet article n'est pas une pub déguisée, mais le résultat d'une collaboration avec l'équipe de Proxem. Il va de soi que je n'avais pas les moyens de rémunérer un travail de conseil de cette précision et que l'équipe a donc bien voulu se charger de l'analyse gracieusement. Retourner à l'article

 

Vous devez être membre de Slate+ et connecté pour pouvoir commenter.
Pour devenir membre ou vous connecter, rendez-vous sur Slate+.
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte