MondeLife

Election truquée en Iran: la non preuve par les maths

Jordan Ellenberg, mis à jour le 19.06.2009 à 16 h 23

La fraude électorale iranienne doit être prouvée autrement que par la publication de graphiques.

Les chiffres des élections iraniennes sont-ils trop beaux pour être vrais? C'était la question posée par le blog Tehran Bureau quelques heures à peine après le scrutin de vendredi dernier, en remarquant une étrange tendance des données électorales du gouvernement: à chaque fois qu'un nouveau total de voix était publié, le pourcentage du président Mahmoud Ahmadinejad était quasiment identique, soit environ 67%. À mesure que les résultats étaient connus, son total ne faisait qu'augmenter de façon strictement linéaire.

Nous avons l'habitude de voir les scores du candidat en tête varier énormément dans les élections américaines car les résultats sont communiqués particulièrement tôt dans la soirée, et c'est pourquoi la parfaite ligne droite du graphique de Tehran Bureau laissait penser que les chiffres étaient truqués - et maladroitement, par-dessus le marché. Il n'a fallu que quelques heures pour que cette courbe apparaisse dans des tweets et des blogs du monde entier. Pour Andrew Sullivan, blogueur de The Atlantic, la preuve est probante. «Ils n'ont même pas essayé de masquer la fraude», s'indigne-t-il. «Cette courbe est un signal d'alarme pour l'Iran et le monde.»

 

Ce genre de filature statistique n'est pas né d'hier. En 1936, par exemple, le biologiste et statisticien anglais R.A. Fisher essaya de coincer Gregor Mendel, dont les résultats d'expérience avaient, selon lui, été légèrement modifiées afin d'être plus favorables à ses idées. «Les données fictives survivent rarement à un examen minutieux», écrivit Fisher, «et, étant donné que la plupart des hommes sous-estiment la fréquence de grands écarts survenant par hasard, on peut s'attendre à voir de telles données correspondre de plus près aux attentes que ne le feraient des données authentiques.» En d'autres termes, c'est précisément le magnifique accord entre expérience et théorie qui a mis au jour les manipulations de Mendel. Fisher calcula qu'il n'était possible qu'une seule fois sur 15.000 d'obtenir une telle conformité (la polémique entourant les pratiques de recherche de Mendel est encore d'actualité, et les deux parties sont également soutenues par des scientifiques de renom.)

Plus près de nous, John Darsee, star montante de la cardiologie, a été mis en cause alors qu'il rapportait une série de mesures inhabituellement consistantes. Quand son supérieur voulut voir les données écrites originales, Darsee prétendit s'en être débarrassé pour faire de la place dans un classeur. Darsee finit par perdre son poste à Harvard, et il fallut jeter 82 de ses rapports de recherche.

Il est donc naturel d'éprouver des soupçons en constatant que le total des voix pour chacun des six horaires officiels suit presque exactement une formule linéaire. En fait, c'est précisément ce à quoi on s'attend étant donné la façon dont les données étaient reportées. À mesure qu'augmentait la proportion du nombre total de voix comptées, il aurait fallu des sursauts de plus en plus impressionnants de l'un ou de l'autre candidat pour faire basculer les scores de façon notable. Nate Silver, as des statistiques politiques, a composé un graphique à peu près similaire des élections présidentielles américaines de 2008, en se basant sur un scénario imaginaire selon lequel les États donneraient leurs résultats dans l'ordre alphabétique, et il a trouvé une tendance linéaire tout aussi solide que celle qui a été reportée en Iran.

Pour mieux évaluer la plausibilité des données iraniennes, on peut examiner séparément les six lots de résultats, plutôt que de manière cumulée comme l'a fait le graphique de Tehran Bureau. On voit un premier lot très conséquent, représentant 36% du total des voix, où les voix pour Ahmadinejad se montent à 70%. Ensuite viennent deux lots plus petits, respectivement 18% et 21% de l'électorat, pour lesquels Ahmadinejad remporte environ 66% des voix. Les trois dernières fournées sont encore plus petites, représentant 10%, 6% et 8% de la population — le président réélu les remporte avec une marge de 67%, 64% et 62%. Le score officiel d'Ahmadinejad est donc réellement assez constant d'un groupe à l'autre.

Est-ce peu crédible pour autant? Fisher utilisait des techniques statistiques sophistiquées pour pister les combines de Mendel, mais nous n'avons pas besoin de la grosse artillerie. Posons-nous simplement la question suivante: à quel écart de pourcentage pouvons-nous nous attendre par rapport à la moyenne de 67,2% d'Ahmadinejad, sachant que nous avons affaire à un électorat généralement varié dont les allégeances varient selon les endroits? La réponse est dans l'écart type, un outil mathématique qui nous dit à quel point une mesure donnée peut varier par rapport à la valeur moyenne globale. Voici comment on neutralise une estimation: imaginons que les 27 millions d'Iraniens qui ont voté la semaine dernière sont divisés en 1.000 régions différentes composées chacune de 27.000 électeurs. À titre d'exemple, nous dirons que la moitié de ces régions est à 87,2 % pour Ahmadinejad - 20 points de plus que sa moyenne globale - et que l'autre moitié l'est à 47,2% - 20 points de moins. Pour chaque région, l'écart par rapport aux voix totales récoltées par Ahmadinejad est exactement de 20%, et quand on additionne le tout, on obtient sa moyenne de 67,2%.

À présent, considérons cette première fournée de résultats, constituée de 360 de nos 1.000 régions (ce qui correspond au premier vrai lot représentant 36% des voix). Sans raison de penser que cet exemple particulier est faussé par rapport au résultat global, nous pouvons employer la belle et simple formule suivante: «L'écart type de la moyenne rapporté à N régions est l'écart type de chaque région divisé par la racine carrée de N.»

Donc, le degré de variation de ce lot auquel on peut raisonnablement s'attendre par rapport à la moyenne générale de 67,2% est 20% divisé par la racine carrée de 360, soit 1,05%. En d'autres termes, même en supposant une grande variation du soutien pour Ahmadinejad dans une quelconque région -20 points dans une direction ou une autre - un lot représentant 36 % de l'électorat est susceptible de ne pas s'écarter de la moyenne de plus de 1% environ.

Or, le total de 70 % obtenu par Ahmadinejad pour les premiers 36% des voix dépasse bien plus largement sa moyenne, ce qui laisse deviner des données encore plus embrouillées que celles de notre scénario. Le même principe estime l'écart type des cinq autres lots à 1,5%, 1,4%, 2%, 2,6% et 2,2% respectivement. En d'autres termes, ces chiffres, s'ils semblent étrangement constants de prime abord, sont en fait exactement ce à quoi nous pouvions nous attendre. C'est la nature même des grands groupes de données, qui sont gouvernés par ce que l'on appelle la loi des grands nombres: les moyennes de quantités subissant de grandes variations peuvent, et c'est généralement le cas, produire des résultats qui semblent presque parfaitement uniformes. Pour peu que les données soient suffisamment nombreuses, les grands écarts ont tendance à se neutraliser.

Naturellement, ces estimations dépendent au plus haut point de nos conjectures arbitraires sur la taille des régions et leurs résultats électoraux individuels. Mais chaque supposition raisonnable que j'ai tentée a donné le même résultat; d'un point de vue purement statistique, les chiffres des élections iraniennes semblent plus ou moins raisonnables. Il en irait différemment si Ahmadinejad avait remporté entre 67,1 % et 67,3 % des voix dans les six lots, ce qui laisserait percevoir un écart type de moins de 0,1%-ou si 500 mini-groupes de données, chacun constituant 0,2% des voix, étaient tous compris dans cette fourchette de 62 à 70% (l'une des raisons pour lesquelles les lecteurs américains ont davantage l'habitude de grands revirements dans le nombre total de voix est que nos minutieux médias commencent à publier des résultats alors que seulement quelques pourcentages ont été communiqués.)

Je ne suis pas en train de dire que les élections n'ont pas été truquées; Juan Cole et Richard Sexton avancent plus de raisons que moi de mettre en doute les chiffres du gouvernement. À l'inverse, Ken Ballen et Patrick Doherty affirment que leurs sondages pré-électoraux prévoyaient la possibilité d'une large victoire d'Ahmadinejad. Dans les deux cas, ce n'est pas en traçant une courbe que le verdict final des élections iraniennes sera prononcé. Authentiques ou pas, les chiffres officiels sont définitivement assez embrouillés pour être vrais.

Jordan Ellenberg

Traduit de l'anglais par Bérengère Viennot

Image de une: Juste après le vote du 12 juin, à Téhéran. REUTERS/Caren Firouz

Notre dossier sur l'élection iranienne

Jordan Ellenberg
Jordan Ellenberg (2 articles)
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites, vous proposer des publicités adaptées à vos centres d’intérêt et nous suivre sur les réseaux sociaux. > Paramétrer > J'accepte