Non, «houx crénelé» n'a pas été la page la plus lue sur Wikipédia en 2012

Dans un classement récemment publié, elle devance notamment François Hollande, Facebook, One Direction et la fin du monde. Mais selon toute probabilité, il s'agirait du travail, volontaire ou non, d'un robot.

La page Wikipedia «houx crénelé».

- La page Wikipedia «houx crénelé». -

Avec près de 4,5 millions de visites, la page la plus consultée sur la version française de Wikipédia en 2012 commence par «ho». «Hollande»? Pas du tout: «houx crénelé». C'est à dire, nous apprend cette page, le «houx japonais, [...] un arbuste, souvent un arbrisseau en culture, à feuillage persistant appartenant au genre Ilex, famille des Aquifoliacées, originaire d'Extrême-Orient, [...] cultivé comme arbuste d'ornement».

L'information se trouve dans un classement publié, au lendemain de Noël, par un étudiant en informatique suédois, Johan Gunnarsson, qui a compilé les registres de la Wikimedia Foundation. Et elle a évidemment surpris en France.

Mais quand on regarde de plus près cette page, plusieurs indices prouvent que, si elle a été la plus consultée, elle n'a certainement pas été la plus lue:

Test volontaire ou programme buggé

La première place du podium 2012 reviendrait-elle à un bot qui aurait empilé des millions de visites en quelques jours? Interrogé par Europe1.fr, Johan Gunnarsson a adopté cette hypothèse: «Ma théorie, c'est que la plupart des visites ont été faites par un robot et pas par des humains», a-t-il affirmé, expliquant qu'«il n'est pas possible de faire la différence entre des pages vues par des humains et celles vues par des robots ou des moteurs de recherche» et qu'il fallait prendre son classement «avec des pincettes».

Une explication également avancée par l'association Wikimédia France sur Twitter et qui nous a été développée par Akeron, un des 183 administrateurs bénévoles de la version française de Wikipédia:

«Il s'agit sans doute d'un test volontaire avec un programme ou éventuellement d'un programme buggé. Cela peut être pour vérifier la façon dont sont calculés les tops de pages vues qui sont aussi utilisés par certains projets, ou peut-être pour tester tout autre chose, comme les capacités réseaux d'un serveur ou voir s'il y a des protections au niveau de Wikipedia... On ne peut faire que des hypothèses.»

Une manipulation qui serait accessible pour un internaute seul:

«Ces 10 requêtes par seconde peuvent même être effectuées sans avoir plusieurs requêtes en parallèle avec un serveur normal, le temps de réponse étant d'environ 100 millisecondes. Donc l'hypothèse d'un programme qui "boucle" par erreur est possible.

La connexion ADSL d'un particulier pourrait suffire, mais avec un temps de réponse de 300 millisecondes, il faut "paralléliser" avec au moins trois requêtes simultanées, donc ça serait plutôt quelque chose de volontaire dans ce cas.»

«Le top 10 peut être facilement manipulé»

Akeron ajoute avoir déjà obtenu témoignage d'un internaute qui avait effectué des dizaines de milliers de requêtes en un mois sur une seule page, celle d'une affaire judiciaire britannique du 18ème siècle, pour la voir s'afficher dans un classement des meilleures audiences. «Le problème, conclut-il, est que les statistiques fournies ne sont pas uniques par IP: chaque rafraîchissement compte, et les milliers de requêtes que peut faire un script aussi.»

«Quand quelqu'un décide de charger un article pendant une semaine avec un script, il peut arriver en tête des consultations sur l'année, confirme Domas Mituzas, un ingénieur lituanien qui a travaillé sur les serveurs de Wikipédia. La beauté des informations et statistiques de Wikipédia est dans la longue traîne et les dynamiques de consultation, pas dans le top 10, qui peut être facilement manipulé.»

Matthew Roth, directeur de la communication de la Wikimedia Foundation [2], confirme que le site ne remet pas en cause les chiffres de Johan Gunnarsson, qui semblent «plus ou moins corrects» —mais ne peut pas «spéculer sur ce qui les a causés»—, et que Wikipédia ne calcule pas de données par visiteurs uniques autres que celles publiées par zones géographiques.

Pour remédier à l'anomalie «houx crénelé», Akeron a lui publié sur son site Wikiscans un classement ne prenant en compte que les pages ayant réalisé au moins 100 consultations sur une journée sur deux mois différents.

Résultat, un top dont disparaît l'arbuste japonais, mais où s'est aussi glissée une bizarrerie peut-être imputable à un bot: la page «Pont suspendu», compulsée 160.000 fois de janvier à novembre, l'a été... 3,2 millions de fois entre le 22 et le 31 décembre. Sans qu'aucune actualité ne le justifie: en comparaison, la page «Prédictions pour le 21 décembre 2012» relative à l'ex-future fin du monde a été vue 1,3 million de fois en décembre...

Montagne chinoise et cul-de-sac

Même si d'autres pays présentent des résultats plus cohérents (on retrouve souvent aux premières places le nom du pays ou Facebook —un résultat que Wikipédia explique par l'énorme actualité autour du site en 2012 et le fait que de nombreux internautes chercheraient à s'y connecter en passant par une recherche Google), la France n'est pas la seule à connaître de telles anomalies.

Aux Pays-Bas, la page la plus visitée de l'année était ainsi «Hua Shan», une montagne chinoise. Et la disproportion est beaucoup plus flagrante qu'en France, puisqu'elle a récolté plus de 12 millions de consultations (pour 17 millions d'habitants!), contre seulement 1,2 million pour le deuxième du classement néerlandais, Nederland.

Ziko van Dijk, président de Wikimédia Pays-Bas, confirme que «les Wikipédiens néerlandais ont été plutôt surpris par certains résultats et qu'il ne semble pas y avoir d'explication définitive». La plus crédible paraît là encore être un bot, puisque quasiment toutes les consultations ont eu lieu entre le 26 juillet et le 7 août.

Le cas allemand est encore plus savoureux: la page la plus consultée y est «Sackgasse» («impasse» ou «cul-de-sac»). Alors que Wikimédia Allemagne s'avoue incapable de fournir une explication «formelle», on a là encore vu passer l'idée d'un bot, voire... d'une erreur de traduction de «One Direction», le groupe étant très souvent dans les classements des pages les plus vues des autres pays.

Mais ces explications collent mal avec l'étonnant rythme de la page: quasiment inactive avant la mi-février 2011, elle compte plusieurs centaines de milliers de visites par mois depuis, mais uniquement en semaine, avec un encéphalogramme presque plat les week-ends et jours fériés!

Le trafic de la page «Sackgasse» en octobre 2012. Compris entre 30.000 et 60.000 visites chaque jour ouvré, il s'évanouit quasi-totalement les week-ends des 6-7, 13-14, 20-21 et 27-28, ainsi que le 3, jour férié en mémoire de la réunification allemande.

Exprimée par des internautes sur un article de ZDNet ou sur le forum de la version allemande de Wikipédia, une hypothèse pourrait expliquer cette drôle de courbe: celle de l'administrateur réseau facétieux d'une grande entreprise ou administration qui aurait redirigé automatiquement sur cette page toutes les tentatives de connexion à des sites «interdits» (Facebook, pornographie, jeux...) de ses collègues.

Jean-Marie Pottier

[1] A noter que depuis la publication du classement de Johan Gunnarsson, la page attire les curieux, avec un pic à 5.000 visites le 28 décembre. Revenir à l'article

[2] La Wikimedia Foundation héberge plusieurs sites collaboratifs, dont Wikipédia. Les organisations nationales, comme Wikimédia France, lui sont associées mais juridiquement indépendantes, et n'hébergent pas les versions locales de l'encyclopédie. Revenir à l'article

Devenez fan sur , suivez-nous sur
 
L'AUTEUR
Rédacteur en chef adjoint de Slate.fr. Il a notamment travaillé à Challenges, SoFoot, Télérama et Ouest-France et est l'auteur de «Brit Pulp», un essai sur Pulp et la culture pop anglaise (éd. Les Cahiers du rock). Le suivre sur Google+. Ses articles
TOPICS
PARTAGER
LISIBILITÉ > taille de la police
SLATE CONSEILLE
D'autres ont aimé »
Publié le 03/01/2013
3 réactions