Égalités / Sciences

Quand les élèves évaluent leurs profs de fac, le genre n'a que peu d'importance (contrairement au pouvoir de séduction)

Temps de lecture : 13 min

Il paraît que les élèves sont sexistes quand ils notent leurs profs. Pour tirer la chose au clair, nous avons analysé des données portant sur un million d'enseignantes et enseignants.

Des dizaines d'étudiantes et d'étudiants, et autant de notes potentiellement dangereuses à la fin du semestre pour les profs | Chris.corwin via Flickr CC License by

À la fin de chaque semestre, les étudiantes et étudiants américains peuvent donner leur avis sur leurs professeures et professeurs sous la forme d'évaluations –ce qui revient peu ou prou à les «noter».

Globalement, le corps enseignant ne voit pas le phénomène d'un très bon œil, ce qui aura généré énormément de recherches sur le sujet. Les personnes opposées aux évaluations étudiantes ont à cœur de souligner que ces dernières ne jaugent pas vraiment l'efficacité réelle d'un ou une prof, mais seulement son efficacité perçue. Elles mettent également en avant la faiblesse de la corrélation entre ces notes et les performances ultérieures de celles et ceux qui les attribuent.

Et les raisons de s'en préoccuper ne s'arrêtent pas là. D'aucuns ont pu faire valoir que ces évaluations surviennent au pire moment possible –à la fin d'un semestre, il est trop tard pour que les profs modifient quoi que ce soit de leurs enseignements, et trop tôt pour que les élèves puissent réellement apprécier la portée de leurs apprentissages.

Les conflits d'intérêts sont patents, vu que les enseignantes et enseignants les plus sévères sont aussi les plus sévèrement notés, que les étudiantes et étudiants ont tout intérêt à avoir de bonnes notes et les profs de bonnes évaluations –pour espérer une promotion, une titularisation, etc.

Un procès en sexisme des évaluations

Comme nous avons tous les deux enseigné à l’université, nous connaissons aussi bien ce processus de notation que les réactions qu'il peut susciter auprès de nos collègues.

La meilleure façon de mettre en œuvre ces évaluations et d'améliorer cette procédure est discutable. Mais peu de gens contestent le fait que, compte tenu du coût sans cesse croissant de l'enseignement supérieur, ce qui transforme de facto les élèves en clientèle, il est légitime que celle-ci puisse signaler les éventuels manquements du corps enseignant.

À une époque où la qualité de l'enseignement importe de moins en moins pour la réputation des profs –en termes de financements, de publications et de service administratif, les éliminer totalement pourrait se révéler inconsidéré, voire hasardeux.

Mais ce consensus se voit de plus en plus attaqué sur un nouveau front, par celles et ceux qui avancent que les évaluations étudiantes sont fondamentalement irrecevables parce qu'intrinsèquement biaisées par le sexisme et, qu'en tant que telles, elles devraient être interdites.

Nous ne partageons pas ce point de vue, principalement en raison de nos préoccupations méthodologiques vis-à-vis des recherches soutenant cette hypothèse. Nous admettons que l'appréhension du sexisme est désormais courante dans la société et que le phénomène est généralement difficile à évaluer, mais nous ne pensons pas que la littérature existante sur ce sujet fournisse une base suffisamment probante à de telles affirmations.

L'état actuel de nos connaissances varie autant sur le plan de la qualité que des résultats de recherche –effectivement, certaines études consignent des biais défavorables aux femmes, mais d'autres observent, à l'inverse, que les évaluations reçues par les enseignantes sont légèrement meilleures.

Des études statistiquement anecdotiques

Une récente étude montre que lorsque des élèves pensent que leur enseignant est une femme –qu'importe son genre véritable, ses notes sont de manière statistiquement significative plus basses sur le plan de l'équité, des compliments, de la rapidité et de l'évaluation générale globale.

Mais cette étude souffre d'une puissance statistique très faible, avec seulement vingt participants par groupe. De nombreux tests statistiques ont été appliqués sur cet échantillon, ce qui aurait dû être pris en compte dans l'analyse, notamment en baissant le critère de signification statistique, mais n'a pas été fait –sinon, les résultats n'auraient pas été significatifs: ils relèvent probablement de faux positifs, et non d'observations réelles.

Ces résultats concernent en outre des cours en ligne. Quelle pertinence peut-on accorder au moindre critère d'évaluation des profs, vu que les interactions personnelles dans ce genre de situation sont minimes? Nous craignons que de tels cours ne soient pas représentatifs de la formation universitaire, où les interactions entre les élèves et le corps enseignant sont diverses et variées. Un élément qui pose particulièrement problème, car il a été démontré que les gens se fient davantage aux stéréotypes dans les situations où le degré d'incertitude est élevé. S'il y a moins d'incertitude, comme dans un cours normal, on peut s'attendre à ce que les effets des stéréotypes soient grandement diminués. De fait, dans ce type de cours, il n'existe globalement pas de différence sexuelle significative dans les évaluations étudiantes.

Plus récemment encore, un autre article présentait une argumentation radicale contre les évaluations étudiantes, au motif qu'elles seraient sexistes –sa co-auteure Kristina Mitchell a pu développer son propos sur Slate, en avançant que les évaluations étant biaisées en défaveur des femmes, leur utilisation pour noter des profs représente une violation de lois anti-discrimination et qu'elle devrait, de ce fait, cesser.

Encore une fois, nous n'estimons pas que les preuves empiriques aujourd'hui disponibles justifient des propositions politiques aussi drastiques. Dans l'étude menée par Kristina Mitchell et son collègue, les évaluations reçues par un homme et une femme instruisant un cours en ligne ont été comparées: le professeur avait reçu des évaluations significativement plus élevées que la professeure. Mais nous craignons que rien ne puisse être définitivement conclu d'une comparaison établie sur un échantillon de deux personnes.

Nous sommes ici, littéralement, face à une anecdote –il est probable que les différences entre l'instructrice et l'instructeur soient quasiment infinies et que le genre ne soit que l'un des innombrables critères susceptibles d'être utilisé comme base de comparaison. Comment peut-on réellement savoir que le genre était le critère déterminant de la notation? Pourquoi pas le style d'enseignement, par exemple? Les individus étant à la base très différents, toute expérience en psychologie nécessite un échantillon de taille suffisante pour s'assurer que le signal que l'on cherche –dans ce cas les différences genrées– n'est pas couvert par ce que l'on qualifie péjorativement de «bruit». Les individus étant compliqués, une variabilité préexistante pourrait être plus pertinente.

Un effet très faible du genre sur l'évaluation

Comme nous savons bien que nous ne convaincrons personne avec de tels arguments, nous avons collecté des données sur RateMyProfessors.com (RMP), un site d'évaluations très populaire. Plus précisément, nous avons compulsé les profils d'un million de profs d'université, pour les classer entre femme ou homme, quand la distinction pouvait être faite sans ambiguïté. Nous avons assimilé ces profils à des évaluations, car ces dernières ne sont pas publiques –contrairement aux fiches RMP. La méthode est acceptable, parce que la corrélation entre les fiches RMP et la réalité des évaluations étudiantes est étonnamment –et suffisamment– forte.

Si les professeures souffraient d'évaluations moins bonnes en raison de leur genre –comme d'aucuns ont pu le laisser entendre, les résultats de l'analyse de nos données aurait dû ressembler à ça:

Pascal Wallisch and Julie Cachia

Fondamentalement, on peut s'attendre à ce que les hommes et les femmes varient dans leurs aptitudes d'enseignement, et donc dans la note qu'ils reçoivent des étudiants, mais la distribution masculine totale devrait être décalée vers la droite –soit parce que les stéréotypes de genre leur conféreraient un avantage, soit parce que les notes féminines seraient artificiellement diminuées par rapport aux notes masculines, en raison du sexisme. Plus l'effet sera grand, plus les notes moyennes entre les deux groupes divergeront. À l'évidence, on peut prédire un certain degré de chevauchement –les meilleures professeures pourraient recevoir des notes plus élevées que les pires professeurs, ce qui est représenté en violet.

Mais voici ce que nous avons trouvé:

Pascal Wallisch and Julie Cachia

Vous pouvez voir trois points importants dans ce graphique. Premièrement, les deux distributions se chevauchent quasi totalement, ce qui signifie que les effets du genre et des stéréotypes sont extrêmement subtils. Deuxièmement, il n'existe pas de différence moyenne significative entre les groupes. La moyenne du groupe masculin est toujours un peu plus élevée, mais pas de beaucoup.

Voici une analogie pour mieux expliquer la taille d'effet que nous observons ici: l'adulte américain moyen marche 5.117 pas par jour. S'il y avait un médicament capable d'améliorer les performances de marche de la même manière que le genre affecte les notes des étudiantes et étudiants, les personnes prenant cette molécule feraient environ 168 pas de plus par jour. Si 5.117 pas représentent environ 3,89 kilomètres, le coup de pouce médicamenteux équivaut grosso modo à 113 mètres, soit une virée supplémentaire à la boîte aux lettres.

En d'autres termes, c'est un effet extrêmement léger, alors même que ce résultat suppose qu'il n'existe pas d'autres facteurs de confusion liés au genre –ce qui est loin d'être établi.

Comme la répartition sexuée des profs a changé ces dernières décennies, les enseignants hommes ont en moyenne plus d'expérience que les femmes. Or les profs ayant plus d'expérience –ce qui dans notre étude équivaut à davantage de notes– obtiennent de meilleures évaluations.

Si nous en tenons compte statistiquement, cette subtile différence en vient elle aussi à disparaître. Nous prévoyons qu'avec l'équilibrage des ratios femmes-hommes à l'université, les professeures et les professeurs acquerront de l'expérience à un rythme équivalent et que le léger écart moyen finira par disparaître complètement.

Des notes extrêmes pour les enseignantes

Ce qui est le plus intéressant, c'est que les femmes sont surreprésentées aux extrêmes de la distribution. Ce qui veut dire qu'il y a relativement plus de femmes parmi les profs recevant des évaluations vraiment très bonnes ou absolument effroyables, avec une surreprésentation des hommes entre les deux.

Nous voulons souligner à quel point nos résultats nous ont surpris et choqués. De fait, dans presque tous les autres domaines ayant été étudiés (les revenus, les mesures générales de réussite, comme par exemple avoir une position sociale élevée par rapport à être sans-abri ou en prison, et même le nombre d'enfants), les hommes sont surreprésentés dans les queues des distributions et les femmes le sont au milieu –des écarts souvent attribués à une propension accrue des hommes à la prise de risque.

Ce qui peut être facilement compris: la prise de risque correspond au jeu et, dans un monde incertain, les paris peuvent être perdus. Celles ou ceux qui prennent des risques arriveront en tête, tandis que d'autres perdront et se retrouveront au bas de la distribution –ou mourront. La théorie selon laquelle les hommes prennent en moyenne plus de risques que les femmes fait sens d'un point de vue évolutif: aucun groupe social ne peut se permettre de perdre la majorité de ses femmes, tandis que les hommes sont fondamentalement jetables et ont été traités comme tels tout au long de l'histoire. Même aujourd'hui et dans la plupart des pays, les hommes meurent plusieurs années plus tôt que les femmes.

Tout ça pour dire que nous avons été vraiment surpris. Mais pour revenir au cas présent, les évaluations étudiantes ne traduisent pas des réussites ou des échecs existentiels fondamentaux, et peu de profs prennent énormément de risques dans leur salle de cours. Nos données reflètent surtout la perception qu'ont les étudiantes et étudiants de l'efficacité de l'enseignement.

Voici ce qui, nous pensons, peut expliquer l'effet que nous avons trouvé: il s'agit d'une théorie que nous avons baptisée le «modèle d'interprétation divergente vis-à-vis des attentes» –puisque les évaluations concernent des profs, des postes considérés comme des positions sociales supérieures. Comme les femmes sont entrées –massivement– de manière relativement récente dans ce secteur, on peut raisonnablement supposer que les stéréotypes qui leur sont assignés se traduisent par une baisse générale des attentes. Le reste est à chercher dans les bases de la psychologie. Si une enseignante est objectivement bonne, en dépassant les attentes, elle sera perçue comme extraordinaire –les gens penseront qu'elle a surmonté haut la main tous les obstacles liés au genre qui ont été mis sur son chemin et elle finira donc tout à droite, dans la queue de la distribution. Si une enseignante est objectivement mauvaise, c'est-à-dire sous-optimale par rapport à des attentes déjà faibles, elle sera perçue comme vraiment effroyable –les étudiantes et étudiants pourront par exemple penser qu'elle a été embauchée simplement parce qu'elle est une femme– et elle se retrouvera à l'extrémité gauche de la distribution.

Les «mauvaises» professeures pourraient finir par se sentir discriminées et la chose serait compréhensible, car nos résultats laissent entendre que ce groupe subit un effet attribuable au genre, même s'il est extrêmement faible –ces femmes pourraient aussi prendre conscience qu'elles ne sont peut-être pas terribles, mais pas non plus aussi mauvaises que pourrait le prédire toute l'hostilité qu'elles reçoivent.

Les femmes «extraordinaires», à la droite de la queue, attribueront en revanche leur succès à elles-mêmes et non pas aux stéréotypes, comme le suggèrent des travaux sur le biais d'autocomplaisance dans l'attribution de causalité. Ce qui rejoint une perception courante parmi les minorités: que ces individus devraient travailler bien plus ou bien mieux que la moyenne pour être simplement considérés comme tout aussi bons.

Nous voulons insister sur le caractère encore très préliminaire de ce modèle. Pour le valider, nous aurions besoin de montrer qu'un effet similaire existe pour d'autres minorités, par exemple ethniques, mais RateMyProfessor ne fournit pas de telles informations. Une autre façon de valider ce modèle serait de mener des recherches interculturelles.

Une forte corrélation avec le pouvoir de séduction

Notre ensemble de données présentait une autre caractéristique que nous avons décidé d'évaluer. En plus des questions de base sur le niveau de difficulté des cours ou l'envie de se réinscrire avec le ou la prof en question, les étudiantes et étudiants sont invités à évaluer le «pouvoir de séduction» de leur enseignant –on notera que ce critère d'évaluation n'est pas obligatoire.

Capture écran de RateMyProfessor.com

En matière d'attractivité, si le ou la prof reçoit davantage d'appréciations positives que négatives, son profil est signalé sur le site par un petit piment.

Et à voir les distributions dans le graphique suivant, il est manifeste que le piment –le pouvoir de séduction subjectif– est très fortement corrélé aux évaluations positives:

Pascal Wallisch and Julie Cachia

Comme le montre la distribution, il n'est pas impossible qu'un ou une prof sans piment reçoive une excellente évaluation, mais la chose est bien moins probable. En outre, les enseignantes et enseignants dotés d'un piment n'obtiennent en général jamais d'évaluation effroyable: 85% des profs avec une note de 4,9 ont le piment, contre seulement 2% chez celles et ceux notés 2,1. La différence saute aux yeux.

Pour reprendre l'analogie précédente, avec un médicament améliorant les performances de marche comme le piment le ferait pour les notes, la molécule augmenterait le score quotidien de 3.884 pas supplémentaires, pour un total avoisinant les 9.000 pas. En d'autres termes, il serait bien plus efficace que n'importe quelle politique de santé publique visant à augmenter l'activité physique des individus. L'effet est des plus conséquents et, dans notre échantillon, il est aussi fort chez les femmes que chez les hommes.

L'apparence physique est-elle le critère le plus important des évaluations étudiantes? Nous ne voulons pas croire que les gens –mêmes jeunes– accordent autant d'importance à un critère superficiel. Et comme nos résultats sont purement corrélationnels, on ne peut pas non plus dire si les profs avec un fort pouvoir de séduction reçoivent une bonne note ou si, au contraire, les profs avec une bonne note sont perçues comme séduisantes et séduisants. Il existe même d'autres possibilités: la performance peut entraîner une confiance en soi accrue, et donc la perception d'être attirant ou attirante. Peut-être que les élèves remercient leurs profs efficaces par un piment.

Nous ne pouvons pas faire le tri entre ces hypothèses, mais ce n'est pas nécessaire. Nous voulions juste montrer à quoi peut ressembler une taille d'effet élevée, comme celle du pouvoir de séduction des enseignantes et enseignants sur les évaluations étudiantes. À l'inverse, sur ces mêmes notations, l'effet du genre des profs est faible.

L'exigeance des profs bien peu récompensée

Un dernier effet d'importance est à prendre en considération: l'effet de la difficulté perçue sur la qualité perçue.

Pascal Wallisch and Julie Cachia

Comme vous pouvez le voir (ici, nous nous limitons aux profils ayant reçu plus de cinquante notes, afin de minimiser l'encombrement visuel), cet effet est également fort: il y a une forte corrélation négative entre la difficulté et la note, par prof. En d'autres termes, les profs «difficiles» reçoivent de moins bonnes notes –comme si les élèves n'appréciaient pas trop les enseignantes et enseignants trop exigeants.

Cependant, et c'est ce qui est à souligner dans le débat qui nous intéresse, il n'existe absolument aucune preuve que les étudiants et étudiants font une différence entre les hommes et les femmes. Comme vous pouvez le voir sur le graphique, les femmes et les hommes sont complètement mélangés. Aucune tendance clairement genrée ne se détache: dans l'ensemble, les femmes ne sont pas perçues comme plus difficiles et elles ne sont pas non plus plus pénalisées par leur difficulté. Les corrélations sont équivalentes dans les deux sous-groupes.

En tant que profs –qui enseignons des matières que nos élèves ont tendance à percevoir comme difficiles et exigeantes, nous pouvons parfois comprendre qu'on puisse vouloir éliminer complètement les évaluations étudiantes. Nous savons aussi que les étudiantes et étudiants ne se gênent pas pour saquer leurs profs lorsqu'elles et ils se sont sentis lésés au cours du semestre –ce qui peut souvent se résumer par «avoir eu une mauvaise note». Une mauvaise évaluation peut alors certainement sembler injuste aux yeux du prof, si la note était méritée.

Il ne fait aucun doute que le processus d'évaluation peut être amélioré. Et le fait même que des sites comme RateMyProfessors existent laisse aussi entendre que les étudiantes et étudiants ne sont pas non plus parfaitement satisfaits du processus d'évaluation officiel de leurs profs. Reste que l'état actuel des connaissances ne penche pas vers l'interdiction de ces évaluations, et encore moins pour des raisons manquant de preuves empiriques. Après, on ne va pas se leurrer, il va falloir qu'on parle sérieusement du piment.

Pascal Wallisch Professeur assistant en psychologie à l'Université de New York (États-Unis)

Julie Cachia Professeure auxiliaire en statistiques appliquées à la psychologie et en neurosciences cognitives

Newsletters

Les amours contrariées du cinéma latino-américain et des transidentités

Les amours contrariées du cinéma latino-américain et des transidentités

En Amérique latine, le cinéma a récemment vu se multiplier les thématiques et les interprètes trans*. Mais cette avancée cache trop souvent une vision stéréotypée et misérabiliste.

Les gays doivent-ils encore être abstinents un an avant de donner leur sang?

Les gays doivent-ils encore être abstinents un an avant de donner leur sang?

Les résultats d’une étude officielle imposent à Agnès Buzyn d’actualiser un dossier compliqué que Marisol Touraine était parvenue, in fine, à gérer.

Les féministes divisées avant la marche du 24 novembre contre les violences sexuelles

Les féministes divisées avant la marche du 24 novembre contre les violences sexuelles

S'il y a toujours eu des divisions, le paysage actuel est beaucoup plus éclaté que dans les années 1970, avec une multitude d'associations aux revendications spécifiques.

Newsletters