Pour ceux parmi mes lecteurs qui ne sont pas familiers avec le milieu universitaire, le “processus d’évaluation par les pairs” est un terme qui peut paraître bizarre et barbare. Mais derrière ce nom se cache un aspect capital (mon avis et celui de nombreux chercheurs) de l’élaboration de nouvelles connaissances.

Lorsque les chercheurs travaillent sur une nouvelle idée, ils théorisent, posent des hypothèses, font des expériences et rédigent un article à ce sujet. Ceci est valable dans tous les domaines de la Science. Pour faire partie du corpus scientifique, il est généralement admis que l’article doit ensuite passer le processus d’évaluation par les pairs. Cela signifie qu’il sera lu par des experts du domaine qui seront en mesure d’évaluer la qualité de l’article. Ils s’assureront que l’article est correct (démonstration mathématique correcte, expériences qui ont du sens…), que les allégations sont soutenues, que les auteurs connaissent suffisamment l’état de l’art1 et la contribution du papier est suffisamment nouvelle. Une fois que l’article a passé le processus d’évaluation par les pairs, il est accepté pour publication. Le format de la publication dépend beaucoup du domaine. En informatique, une grande partie du travail de publication se fait par le biais des conférences alors que dans d’autres domaines les conférences sont plus limitées et les journaux sont privilégiés. Quoi qu’il en soit, dès que l’article est publié, il fait partie du corpus scientifique.

S’agit-il d’un processus sans faille ? Non, évidemment. Et pour diverses raisons qui peuvent varier d’un champ à l’autre. C’est pourquoi, à partir de maintenant, je me concentrerai principalement sur le domaine de l’intelligence artificielle.

Simple vs Double aveugle

En Intelligence Artificielle, il existe deux types d’examen : le simple-aveugle et le double-aveugle. Dans l’évaluation en simple-aveugle, les reviewers2 connaissent le nom des auteurs de l’article et leur affiliation. En double aveugle, les auteurs sont anonymes. Dans aucun cas les auteurs ne connaissent les noms des reviewers.

Les évaluations en simple-aveugle ont tendance à favoriser les équipes et les chercheurs bien connus et établis. En effet, peu de critiques mettraient en doute un article écrit par l’équipe la plus influente du domaine, même si la qualité n’est pas là dans ce cas3. De plus, un “mauvais” nom d’auteur4 peut être facilement discriminé en simple aveugle, souvent même inconsciemment.

L’évaluation en double aveugle est censée éviter ce genre de problèmes en anonymisant les auteurs. Cependant, soyons honnêtes. Dans beaucoup de domaines, les chercheurs travaillent sur des problèmes très pointus et il y a peu d’experts capables d’évaluer leur travail. Quand on a été assez longtemps dans le circuit, on sait qui travaille sur quoi et il est parfois possible de “casser” le double aveugle et de deviner quelle équipe a produit quel papier. Toutefois, il a été démontré que les évaluations en double-aveugle tendent à réduire les discriminations5.

Un processus imparfait

Donc, le double-aveugle, c’est cool. Alors pourquoi le processus est-il imparfait ?

Tout d’abord, l’évaluation par les pairs et le processus de publication en général sont longs… très longs… des mois peuvent s’écouler entre le moment où les auteurs envoient un article pour évaluation par les pairs et celui où ils reçoivent les évaluations6 et le domaine de l’intelligence artificielle avance rapidement… très rapidement… Et vous savez quoi, les chercheurs continuent à travailler sur leurs projets et les sujets entre-temps ! Ce qui veut dire que lorsque le papier est publié, il est très probablement déjà obsolète, ce qui peut être frustrant.

Deuxièmement, comme je l’ai dit, l’examen par les pairs devrait être le premier gardien de la Science, s’assurer que les articles qui sont acceptés sont bons. Alors comment se fait-il qu’il y ait régulièrement des papiers rétractés et des papiers contenant tant d’erreurs ? Parce que les reviewers et les revues ne sont pas parfaits et souvent surchargés de travail et de demandes. Il est important de savoir que les chercheurs font leur évaluation bénévolement : ils ne sont pas rémunérés pour les évaluations qu’ils rendent, ça fait partie de leur job de base. Mais cette tâche s’ajoute toutes les autres qu’ils ont déjà, comme de l’enseignement, la supervision de leurs étudiants, le travail administratif et peut-être un peu de recherche s’ils ont encore du temps. Plus un chercheur est actif dans la communauté, plus on lui demandera d’évaluations.

Faire une évaluation correctement, ce n’est pas seulement lire l’article et répondre oui ou non. Un bon reviewer doit s’assurer que l’article est bien expliqué ; il vérifie les références fournies, pour voir si elles sont complètes et si les auteurs sont conscients de tout le travail important qui existe dans le domaine ; il doit vérifier soigneusement les preuves et les théorèmes s’il y en a et, idéalement, les re-démontrer pour s’assurer qu’il n’y a pas d’erreur ; il doit pouvoir vérifier les données brutes et les algorithmes pour reproduire les expériences et vérifier que les résultats sont corrects… Une bonne évaluation prend des heures de travail, et souvent les reviewers n’ont pas accès à tout ce dont ils ont besoin (comme les données brutes ou le code qui ne sont généralement pas inclus dans la soumission). Pour toutes ces raisons, il arrive plus souvent que souhaitable qu’ils fassent leurs examens à la légère, en vérifiant grossièrement le document pour déceler les erreurs évidentes, mais n’apportant pas une attention suffisante aux détails. Ça suffit dans beaucoup de cas car il est souvent facile d’écarter les articles ouvertement mauvais. Parfois cependant, c’est un détail7 qui fait la différence entre un bon et un mauvais article, et les reviewers le manque.

Il y a un autre aspect à l’évaluation par les pairs dont j’ai peu parlé ici : le feedback. Écrire un papier, le soumettre pour publication et avoir des évaluations est l’un des (rares) moyen pour des auteurs d’obtenir des commentaires sur leur travail qui ne soient pas issues de leur labo de recherche ou de leurs co-auteurs8. Les évaluations devraient donc toujours avoir pour but d’améliorer l’article et le travail de recherche derrière. Pourtant, trop souvent, les évaluations sont “inutiles” de ce point de vue. Pour les même raisons qu’expliquées précédemment, les reviewers ne prennent pas le temps d’écrire des évaluations constructives, ce qui a une influence sur l’ensemble du processus scientifique vu qu’il devient plus compliqué de discuter d’un travail pour l’améliorer.

N’y a-t-il donc aucun espoir?

On l’a vu, le processus de revue par les pairs est loin d’être parfait. C’est un problème connu, et les chercheurs en parlent et tentent de trouver des solutions. Pourtant, tout est pas à jeter de mon point de vue dans ce processus. Malgré ses imperfections, le processus de revue par les pairs réussi tout de même à trier la plupart du grain de la plupart de l’ivraie. C’est toujours un gardien… c’est juste un gardien très vieux et très lent plutôt que le Cerbère qu’il devrait être, mais c’est un gardien qui travaille quand même.

Des alternatives se mettent en place pour remplacer ce vieux gardien. Certain journaux par exemple choisissent de pratiquer l’examen après publication: les premières évaluations ont pour seul but de déterminer si le papier est correct ou non9 et la communauté discute et évalue le papier après publication. D’autres choisissent de noter les articles à chaque révision et les auteurs peuvent choisir s’ils décident de continuer à travailler pour améliorer leur note ou s’ils sont satisfaits de l’état actuel de leur travail.

Toutes ces alternatives sont récentes et portées par des journaux majeurs (PLOS One, Nature…). Cela va prendre du temps avant de savoir si elles sont viables et peuvent remplacer le processus classique.

Contenu Additionnel

Crédits:

Image par GollyGForce, CC-BY 2.0

  1. Ce qui a été fait avant sur le même sujet
  2. Ou examinateurs si vous ne voulez pas garder le terme anglais… mais moi je le garde
  3. Et ça arrive ! Cela ne veut pas dire que l’équipe ou le chercheur n’est plus bon, nous avons tous nos mauvais jours… et nos mauvais papiers :D
  4. Un nom de femme ou un nom qui semble provenir d’un “mauvais pays” par exemple
  5. https://www.pnas.org/content/pnas/114/48/12708.full.pdf
  6. Peu importe si l’article a été accepté pour publication ou non
  7. Ou plusieurs
  8. Un autre moyen étant de publier ledit article en conférence et obtenir des retours du public
  9. Il s’agit en gros d’officialiser ce qui est déjà une certaine réalité
0 réponses

Répondre

Se joindre à la discussion ?
Vous êtes libre de contribuer !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.