Oubliez le Goncourt, le Renaudot et le Médicis. Pour savoir quels auteurs il faut absolument avoir lu, Alan Riddell, un chercheur de l’université de Darthmouth, a inventé un algorithme qui classe les oeuvres littéraires du domaine public en fonction de leurs données sur Wikipedia, rapporte Technology Review.
Il s’agit d’un algorithme d’apprentissage automatique, qui utilise deux types de données: il se fonde d’abord sur une liste qui recense plus d’un million de livres numériques tombés dans le domaine public, détenue par l’Université de Pennsylvanie. Mais aussi sur les pages Wikipedia des auteurs, dont il extrait un certain nombre d’informations: la longueur de l’article, son «âge», le nombre de vues estimé par jour, le temps écoulé depuis la dernière révision de l’article, la date de décès de l’écrivain.
L’algorithme cherche ensuite la corrélation entre les données d’un auteur sur l’encyclopédie en ligne et l’existence d’une édition numérique de ses oeuvres dans le domaine public. A partir de cela, il génère automatiquement un classement des auteurs importants pour une année donnée. Le résultat est visible sur le site Public Domain Rank.
Les auteurs sont classés en fonction de l’année ou de la décennie de leur décès. Par exemple, les cinq écrivains considérés comme les plus importants parmi ceux décédés dans les années 2000 sont des auteurs de science-fiction, de fantasy, de thriller ou d’horreur (Charles L. Grant, Isabelle Holland, Damon Knight, Byron Preiss et Andre Norton).
Le site propose aussi un classement par catégorie. Chez les «dramaturges du XXe siècle», T.S. Eliot arrive en première position, trois places avant Vladimir Nabokov, qui lui-même dépasse Samuel Beckett. Jean-Paul Sartre arrive en tête des «philosophes français du XXe siècle». Mais si l’on considère les «écrivains français du XXe siècle», il n’est qu’en deuxième position derrière le spécialiste de la science-fiction Jean-Marc Lofficier. Dans cette même catégorie, Simone de Beauvoir est dépassée par Bernard Werber, l’auteur des Fourmis.
Selon Alan Riddell, le classement généré par l’algorithme est plutôt pertinent, puisque les auteurs sélectionnés par les experts de l’éditeur Modern Library sont également bien classés sur le Public Domain Rank. Il reconnaît cependant que le classement souffre de certaines faiblesses: par exemple, le nombre restreint d’écrivains de sexe féminin fichés sur Wikipedia se retrouve dans les résultats.
Le Public Domain Rank reflète aussi un certain manque de diversité parmi les textes disponibles sur le projet Gutenberg, la bibliothèque électronique qui rassemble des versions numériques libres de droit (tombées dans le domaine public, qui n’ont jamais été sous copyright ou dont ce dernier a expiré). Ceux-ci sont essentiellement des oeuvres religieuses et politiques, ou des livres de genres populaires: thriller, science-fiction, fantasy.
Enfin, les données sont extraites des articles Wikipedia en anglais, qui ne couvrent pas forcément de manière exhaustive la littérature publiée dans d’autres langues. Même si, comme le note Alan Riddell, on peut supposer qu’à partir d’un moment où un écrivain est suffisamment populaire, il possède sa page Wikipedia anglophone.