Google suggest et le «fichier juif»
Des associations ont assigné Google en référé, accusant la firme de «fichage ethnique» pour son association du mot «juif» à des noms de personnalités.
- Capture Google effectuée le 11 novembre 2010. -
Dimanche 29 avril, TF1 a perturbé ma sieste dominicale en m'envoyant une équipe pour recueillir quelques mots pour le JT de 20h sur l'affaire du «fichier juif» de Google...
Une séquence de fin de JT n'est pas un format qui se prête beaucoup à l'élaboration, et je me suis dit que je pourrais essayer de rassembler ici mes réfléxions sur le sujet. Je pense que tout le monde a désormais entendu parler de l'affaire.
Plusieurs associations, SOS Racisme, le MRAP, l'UEJF et l'AIPJ, ont assigné Google en référé pour «trouble manifestement illicite», estimant que le moteur contrevient à la loi française, qui interdit tout fichage ethnique, en associant fréquemment le mot juif à des noms de personnalités dans son module de suggestion.


Je ne suis pas juriste et je laisse d'autres bien plus qualifiés s'exprimer sur le sujet. Je me contenterai d'apporter modestement quelques éléments de nature technique au débat.
1. Le problème est-il nouveau?
Non. Au contraire, il ressort régulièrement. A ma connaissance c'est Colombe Schneck qui avait soulevé le lièvre en mai 2009 sur France Inter (écouter l'émission, voir également sur le blog de Renaud Revel). Il a été redécouvert par Emmanuelle Anizon sur Telerama.fr fin 2010, article qui avait été relayé par Le Monde (15 février 2011,
article de Stéphane Foucart uniquement en archives payantes), le Nouvel Obs, etc.
J'avais fait moi-même remarquer sur mon blog en 2010
que d'autres suggestions de Google reflétaient les stéréotypes les plus
désagréables sur les juifs, les noirs, les femmes, les arabes...


(voir aussi de beaux exemples en écho sur Slate et une analyse intéressante d'Olivier Ertzscheid).
2. L'explication de Google
L'AFP avait relayé la chose et Google m'avait répondu par le même canal, expliquant qu'il s'agissait d'une agrégation automatique, pur «reflet de l'activité de recherche de tous les utilisateurs du moteur».
La ligne de défense de Google cette fois-ci est globalement la même. La firme affirme que les suggestions se sont «aucunement issues d'un choix éditorial de la part de Google», mais «générées de manière totalement algorithmique, sur la base de critères purement objectifs».
Google Suggest «apprend» en effet ce que les internautes ont tapé, et le restitue ensuite en fonction des premières lettres tapées par l'utilisateur (cet algorithme existe depuis 2004, et avait fait l'objet d'un de mes premiers billets sur ce blog).
3. L'algorithme peut-il être leurré?
Les suggestions reflètent-elles les vraies fréquences naturelles de requêtes ou bien peuvent-elles être «spammées»? On m'a posé plusieurs fois la question et l'on peut en effet légitimement se demander si les décomptes sur lesquels sont basées les suggestions ne sont pas faussées par des individus ou groupes organisés. Je n'ai évidemment ni certitude ni preuve, mais on peut se poser la question en voyant par exemple un certain nombre de requêtes qui, comme par hasard, correspondent à des titres de posts sur des forums...
Diverses techniques existent qui pourraient permettre de contourner les limites de Google (campagnes coordonnées, utilisation de proxies, programmes malveillants divers implantés à l'insu d'utilisateurs sur de nombreuses machines, Amazon Mechanical Turk, etc.) et qui pourraient leurrer Google quant au nombre de requêtes de tel ou tel type.
L'idée a certainement déjà traversé l'esprit de quelques spécialistes de SEO, et on peut imaginer que des groupes d'idéologies ou d'intérêts divers puissent mener des attaques ciblées sur des personnes ou entreprises. Google pourrait expliquer si le phénomène existe et si des mesures particulières sont prises pour le contrecarrer.
Dans le cas précis de la plainte qui sera étudiée le 23 mai, je crois plutôt que l'association de nombreux noms avec le mot juif résulte d'une ambiance délétère, et d'un souci malsain qui est de «débusquer les juifs» pour reprendre les termes de l'avocat de SOS Racisme.
4. Cela concerne-t-il seulement les juifs?
Non. Toutes les religions y passent. On se demande visiblement si Obama ne serait pas musulman, Zidane chrétien ou Jospin protestant:



Dans certains cas l'association est vraie, dans d'autres non.... C'est sans doute la faiblesse de la plainte déposée contre Google. Il est difficile de voir dans ces associations un «fichier juif». Parmi les requêtes les plus proposées, on a «Sarkozy juif» ou «Hollande juif», mais à ma connaissance ce n'est la religion ni de l'un ni de l'autre (pas plus qu'Obama n'est musulman). Nous verrons ce que dit la justice.
Remarquons au passage que les associations ne concernent pas que les religions. Un certain nombre de dénominations plus ou moins injurieuses sont récurrentes:

Sur ce point, notons que Google a déjà été attaqué en justice (et a perdu plusieurs fois). Dès 2009, Direct Energie avait condamné Google pour l'association du nom de cette société avec le mot arnaque. A ma connaissance c'était le premier cas en France et le jugement est extrêmement intéressant à lire. En 2010, un particulier s'était plaint de voir son nom associé aux doux qualificatifs d'escroc, sataniste, arnaque ou violeur et avait obtenu gain de cause. En février, la société de vente directe de produits diététiques Kriss Laure a fait condamner Google à supprimer la suggestion kriss laure secte sous une astreinte de 2.500 euros par jour.
Nicolas Sarkozy serait donc fondé (comme d'autres) à attaquer Google et gagnerait probablement selon cette jurisprudence.
Dans le cas des religions, c'est peut-être un peu différent. A nouveau, je ne suis pas juriste, mais il me paraît difficile de voir dans les mots juif ou musulman des insultes (j'espère!). Le point de vue judiciaire sur ce cas serait intéressant (mais apparemment ce n'est pas la ligne d'attaque qu'ont choisie les associations, puisqu'elle ne se plaignent pas d'une insulte mais d'un fichage illégal).
5. Google intervient-il?
Oui. Contrairement à ce que la firme déclare le processus n'est pas totalement algorithmique, et il y a bien intervention humaine (même en dehors des cas imposés par la justice comme ci-dessus). Certainement pas pour ajouter des suggestions mais pour en filtrer certaines.
Par exemple, il est assez simple de vérifier que «les arabes...», «les nègres...» ou «les youpins...» ne ramènent aucune suggestion. Il y a donc bien une liste d'exclusion, mais elle semble assez rudimentaire, et le choix des termes filtrés paraît assez aléatoire.
On peut d'ailleurs, de façon assez intéressante, voir sous la surface de l'algorithme car la liste ne semble pas inclure les fautes d'orthographe...


6. Des solutions techniques existent-elles?
Oui. Il serait assez trivial pour une firme qui a les moyens de Google d'opérer des filtrages sur un certain nombre de «patrons» de requêtes correspondant à ce qui choque le plus apparemment les sensibilités, à savoir l'association d'un patronyme avec une liste de mots tels que juif, musulman, escroc, etc.
7. Pourquoi Google ne réagit-il pas?
Seule la firme a la réponse. Le phénomène est connu depuis plusieurs années et Google ne souhaite visiblement pas intervenir. Même dans les cas qui ont porté à condamnation (comme l'association avec le mot escroc) on voit qu'aucune action globale n'a été prise (exemple «Sarkozy escroc» ci-dessus).
8. Faut-il réagir?
Je n'ai pas un penchant réglementeur et liberticide, mais visiblement des gens ou des groupes sont dérangés, voire choqués, par certaines suggestions. Mais jusqu'où faut-il aller? Les correcteurs orthographiques n'osent plus proposer le mot arabe ou le mot juif... Est-ce bien raisonnable?
Le débat est donc nécessaire, et même salutaire.
***

Peut-être que la dernière suggestion est la bonne. Cela expliquerait toutes ces questions qu'on lui pose sur les religions: Il doit savoir...
Jean Véronis
Article également paru sur Technologies du Langage
Mis à jour le 02/05/2012 à 14h10















































Ces suggestions de recherche m'ont toujours fait sourire, il est d'ailleurs plutôt drôle de commencer une phrase et de voir ce que Google suggère, parfois c'est du grand n'importe quoi^^
Concernant les termes juif, musulman, franc maçon, etc etc, ils sont dus la plupart du temps aux memebres de la communauté souhaitant vérifier l'appartenance de la personne à la communauté ou non, soit à des personnes hostiles à une certaine communauté cherchant également si oui ou non la personne appartient ou non... 'Fin bref c'est triste mais on ne peut pas vraiment en vouloir à Google...
Comme dit dans l'article, Google ne fait que refléter les recherches de ses usagers... Cela me fait penser aux puritains qui s'offusquent de "toutes les horreurs" sur lesquelles on peut "tomber" sur internet. On ne "tombe" pas, internet ne nous renvoie que vers ce que l'on cherche, une sorte de fonction miroir qui peut donc faire ressortir nos bassesses comme l'illustre bien cette polémique.
Attaquer Google ne changera rien, une recherche comportant des composantes sexuelles, par exemple, ne comportera pas de suggestions mais nous amènera toujours vers le contenu recherché.
Attaquer le mal à la racine c'est réfuter les stéréotypes et faire changer les mentalités, les symptômes tels que présentés ici ne peuvent que servir le diagnostic.
PS:
Pour un florilège de suggestions Google totalement incongrues:
http://devenirunninjagratuitement.tumblr.com/
http://www.hinsolite.com/modules/newbb/viewtopic.php?viewmode=compact&topic_id=1891&forum=18
http://googlematuer.tumblr.com/
http://www.topito.com/top-pire-recherche-google
http://www.telegraph.co.uk/technology/google/6161567/The-20-funniest-suggestions-from-Google-Suggest.html
oui il y a une solution, nous pouvons influencer et changer les proposition du google instant search.
A lire ci dessous un exemple: Une boite roumaine a réussi a changer les propositions négtives sur les roumains...
http://www.seomoz.org/blog/romanians-are-smart-or-how-to-change-the-google-autocomplete-suggestions
:)
Si je tape "Hollande juif" dans Google cela ne veut pas forcément dire que je cherche à savoir si Hollande est juif. Cela peut aussi vouloir dire que je cherche à savoir ce que Hollande a pu dire à propos des juif, ou même ce que les juifs disent de Hollande !
Autre exemple : un internaute qui tape "Valls cannabis" ne cherche pas forcément à savoir si Manuel Valls en a déjà fumé. Ce sera plutôt quelqu'un qui ne veut pas prendre le risque de voter pour un candidat qui s'est prononcé contre la légalisation du cannabis, et qui veut donc vérifier les déclarations de Valls à ce sujet.
<(...)on peut en effet légitimement se demander si les décomptes sur lesquels sont basées les suggestions ne sont pas faussées par des individus ou groupes organisés. Je n'ai évidemment ni certitude ni preuve, mais on peut se poser la question en voyant par exemple un certain nombre de requêtes qui, comme par hasard, correspondent à des titres de posts sur des forums...>
Je ne comprends pas très bien votre raisonnement. De quel genre de requêtes parlez-vous?
Qu'est-ce qui empêche ces formulations de se retrouver naturellement dans de nombreuses recherches sur google ET dans des forums, des blogs,...
Enfin êtes-vous sûr que google n'inclut pas aussi dans ses suggestions du contenu fréquemment consulté sur le web. Ça me semblerait logique...