Affaire Cahuzac: que valent les expertises vocales?

Jérôme Cahuzac à l'Assemblée nationale le 11 décembre 2012. REUTERS/Charles Platiau

Jérôme Cahuzac à l'Assemblée nationale le 11 décembre 2012. REUTERS/Charles Platiau

Selon un communiqué du procureur de la République, des témoins auraient reconnu la voix de Jérôme Cahuzac sur l'enregistrement publié par Médiapart et les techniciens du laboratoire de police scientifique pencheraient pour l'authenticité du document. Mais les expertises vocales sont-elles fiables?

Selon un communiqué de presse du procureur de la République rendu public le 19 mars 2013, «trois témoins, à qui les enquêteurs ont fait écouter l'enregistrement, ont dit reconnaître la voix de Monsieur Jérôme CAHUZAC et un témoin des "intonations de la voix"» et «les techniciens du laboratoire de police technique scientifique d'ECULLY requis pour procéder à une comparaison de voix entre celle de l'enregistrement et celle de Monsieur Jérôme CAHUZAC ont conclu dans un rapport remis le 18 mars 2013: " Sur une échelle de -2 à +4, la puissance de l'indice, c'est à dire de notre comparaison phonétique et automatique se situe à +2. Autrement dit le résultat de notre analyse renforce l'hypothèse que Jérôme CAHUZAC est le locuteur inconnu." »

En décembre 2012, nous avions consacré un article aux expertises vocales.

 

Depuis début décembre 2012, Mediapart accuse le ministre du Budget Jérôme Cahuzac d’avoir détenu jusqu’en 2010 un compte en Suisse (lien payant).

Le site d’information s’appuie notamment sur un enregistrement de presque quatre minutes datant de 2000 sur lequel on peut entendre un homme (Jérôme Cahuzac selon Mediapart) reconnaître qu’il possède un compte en Suisse et affirmer vouloir le fermer, précisant qu’il n’y a rien dessus.

Il déclare également qu’«il n’est pas exclu» qu’il «devienne maire au mois de mars». Il est donc difficile d’identifier Jérôme Cahuzac grâce au simple contenu de la bande, qui est de mauvaise qualité et dont le contenu est assez vague pour pouvoir être attribué à bon nombre d’hommes politiques ayant brigué une mairie lors des municipales de 2001.

Le ministre du Budget aurait démenti pour la première fois le 19 décembre être la personne qui parle sur la bande au cours d’une conversation avec des journalistes de France Inter, déclarant:

«Sur les trois minutes quarante d'enregistrement, il y a 4-5 secondes où effectivement ça peut être moi mais il se trouve que ce n'est pas moi […] Si Mediapart avait une expertise concernant ma voix, vous ne pensez pas qu'il l'aurait sortie?»

Ses proches aussi jurent ne pas reconnaître son «phrasé». Corinne Audouin, une journaliste de France Inter, relève également que «plusieurs de ses collègues «de France Inter habitués à rencontrer le ministre ne reconnaissent pas sa voix». Mediapart affirme pourtant avoir fait appel à des experts qui ont pu prouver que la bande n’a pas subi de montage «et que la voix est bien celle de Jérôme Cahuzac».

Peut-on se fier aux procédés d’identification vocale? Est-il possible, comme dans un épisode des Experts, d’identifier la voix d’un individu de manière catégorique à partir d’un enregistrement?

Applications commerciales

Pour Jean-François Bonastre, informaticien spécialisé dans la reconnaissance du locuteur et membre de l’Association francophone de la communication parlée, l’identification vocale est surtout fiable «dans des applications commerciales».

Quand les entreprises utilisent des systèmes de  reconnaissance vocale, par exemple pour protéger leurs données, les phrases de reconnaissance sont fixes et connues à l’avance, ce qui les rend beaucoup plus simples à identifier.

Mais dans le cas d’une bande enregistrée par hasard, celui qui parle ne fait pas d’effort particulier pour que sa voix soit reconnue, et comme il n’y a pas deux extraits contenant les mêmes phrases à comparer, la tâche est beaucoup plus compliquée.

L’enregistrement attribué à Jérôme Cahuzac nécessite donc de faire appel à «la reconnaissance vocale indépendante du texte» puisqu’il est impossible de lui faire répéter les phrases que l’on entend sur la bande, à moins qu’un juge l’y astreigne dans le cadre d’un procès.

L’empreinte vocale n’existe pas

De nombreux obstacles empêchent l’identification vocale d’avoir une valeur scientifique incontestable. Il n'y a pas d’empreinte vocale comme il existe une empreinte digitale. Car on ne produit jamais exactement le même son en parlant, et la voix est influencée par les émotions et le stress alors qu'un prélèvement ADN reste le même en toute circonstance. Jean-François Bonastre explique que ces spécificités de la voix font que son identification relève en fait de la «biométrie comportementale»:

«On s’intéresse plus à la façon de parler qu’à la voix elle-même. C’est comme identifier la démarche de quelqu’un, cela fonctionne uniquement si la personne marche de façon habituelle.»

La voix est également sujette à un phénomène de «dérive temporelle», c’est-à-dire qu’elle évolue à travers le temps, à mesure que l’on vieillit. Cette dérive rend l’identification vocale difficile lorsque plusieurs mois séparent deux enregistrements.

A ces contraintes dues au fonctionnement de la voix humaine viennent s’ajouter des contraintes d’ordre technique: le captage, la transmission et le stockage de la voix. Une bande de mauvaise qualité peut rendre l’identification impossible. Comme l’expliquait RFI dans un article consacré à l'affaire Grégory, les conditions de captage doivent être faites en laboratoire pour une précision maximale, avec «salle insonorisée, micro de qualité, aucune compression du signal enregistré, diversité des phrases et des éléments de référence pour la comparaison».

Quelle valeur dans un procès?

Reste que l’identification vocale est traitée de la même manière que l’ADN ou les empreintes digitales au cours d'un procès car elle est une preuve comme une autre, explique à Slate Mathieu Bonduelle, président du Syndicat de la Magistrature:

«En droit pénal, la preuve est libre, tout élément peut avoir valeur de preuve. Ce sont ensuite les juges qui décident au cas par cas de conserver ou d’écarter une preuve. Certains peuvent considérer que l’identification vocale n’a aucune valeur scientifique, d’autres qu’elle est tout à fait acceptable.»

Mais, comme l’expliquent Jean-François Bonastre et son collègue Louis-Jean Boë dans un article paru dans la revue du Syndicat de la Magistrature, la majorité des spécialistes de la parole ont cessé de pratiquer des identifications vocales pour la justice, tant les techniques actuelles leur paraissent imprécises. Jean-François Bonastre est catégorique:

«Nous appelons à un moratoire total de l’utilisation de l’identification vocale devant les tribunaux. En l’état actuel des connaissances en matière d’identification vocale, il n’existe aucune méthode scientifique qui permettre d’identifier une personne avec certitude.»

Le vide laissé par ces spécialistes a été comblé par le Laboratoire de la police scientifique d’Ecully (près de Lyon) et un département de l’IRCGN (Institut de recherche criminelle de la gendarmerie nationale) à Rosny-sous-Bois. Contactés par Slate, ces deux services ont confirmé avoir acquis ce rôle, mais ont refusé de s’exprimer sur l’identification vocale.

Affaires Grégory, Bettencourt

Par exemple, dans l’affaire Grégory, la justice possède des enregistrements du fameux «corbeau» qui sont en cours d’analyses mais ne jugera pas de l’identité de l’assassin sur la seule base de l’expertise, explique RFI:

«Les comparaisons vocales n’offrent que des pistes de recherche, une orientation à l’enquête. Les expertises vocales peuvent aboutir sur des hypothèses: un nombre de similitudes entre plusieurs voix, ou la sélection de plusieurs suspects parmi les voix analysées.»

Mais l’identification vocale n’est pas toujours requise. Dans le cas l’affaire Bettencourt, les écoutes clandestines n’en ont pas fait pas l’objet, mais ont simplement été authentifiées par les autorités judiciaires.

Les avocats de Liliane Bettencourt ont en effet axé leur défense sur la nature des enregistrements —là aussi publiés par Mediapart, et non pas leur contenu, arguant qu’ils étaient illégaux et donc inutilisables en tant que preuves lors du procès. Un argumentaire qui n’a pas convaincu la Cour de cassation, qui a estimé que les enregistrements pouvaient être utilisés en novembre 2012.

Il faut dire que ceux-ci sont de bien meilleure qualité que dans l’affaire Cahuzac. Ils durent plus de 21 heures, citent nommément de nombreuses personnalités et apportent des éléments contextuels qui donnent des indices sur l’identité des protagonistes.

Dans le cas de l’enregistrement qui met en cause Jérôme Cahuzac, Jean-François Bonastre estime qu’il n’existe aucune technique permettant d’attester avec certitude que le ministre est bien celui qui s’exprime. Il juge d’ailleurs qu’il s’agit d’«un cas extrême où rien n’est faisable», soulignant que l’enregistrement est de mauvaise qualité et que son âge (il date de 2000) constitue «un très gros biais».

Jamal El Hassani