Le « crowdsourced grading » : externaliser la sagesse de l’évaluation vers les étudiants

À la suite de la dépêche de Catherine qui tentait de découvrir les modalités d’évaluation derrière l’initiative MITx, je me suis intéressé à cette notion d’externalisation ouverte (crowdsourcing) de  l’évaluation.  Le crowdsourcing, la « pratique qui consiste pour une organisation à externaliser une activité, par l’entremise d’un site Web, en faisant appel à la créativité, à l’intelligence et au savoir-faire de la communauté des internautes, pour créer du contenu, développer une idée, résoudre un problème ou réaliser un projet innovant, et ce, à moindre coût » (Grand dictionnaire terminologique) est assez documenté, notamment en sciences (divers projets d’astronomie et de botanique) et dans l’univers encyclopédique (Wikipedia et autres), mais aussi dans le monde de la photographie (iStockphoto et cie), etc.  L’idée de l’utiliser en classe – surtout pour évaluer – m’apparait assez nouvelle… et sujette à controverse.

Je ne fus qu’à moitié surpris de constater que Cathy N. Davidson (encore elle !) avait suscité de nombreuses réactions à la suite d’un billet de juillet 2009 où elle expliquait que les étudiants de son cours « This is Your Brain on the Internet » allaient évaluer les blogues de leurs condisciples à tour de rôle :

« How do we learn to contribute and collaborate well in [a « customizing, process-oriented, collaborative online public »] environment.  Little in our formal education prepares us to be responsible participants of the Internet.  This course proposes an evaluation system that matches the purpose of the course, where students learn how to be responsible judges of quality and helps them learn to be responsive to feedback as well.    I can’t imagine better skills to learn within the safe confines of a class, with a prof on hand to offer constructive feedback (including to those giving feedback).  »

Les étudiants du cours de Davidson obtiennent différentes notes selon la quantité de travail qu’ils sont prêts à effectuer.  Si tous les travaux sont faits correctement, ils obtiennent des « A ».  Or, ce sont des pairs (d’autres étudiants) qui déterminent si les travaux effectués méritent la note prévue.  Autrement, les étudiants insatisfaits de leurs notes doivent reprendre le travail.  D’après un article de Scott Jaschik (2010), les 18 étudiants du cours ont tous obtenu un A :

« While the students are ending up with As, many of them are doing so only because they redid assignments that were judged not sufficient to the task on the first try. The students were tough on each other, Davidson said. And this, she believes, encouraged students to work harder on their assignments. « No one wanted to get one of those messages » that an assignment needed to be redone. (But when they did receive such notes, the students didn’t complain, as many do about grades they don’t like. They reworked their essays, she said.) »

Plusieurs ont critiqué l’approche de Davidson, l’accusant de se désengager et s’inquiétant que ses étudiants soient trop indulgents… Soit parce qu’ils ne croient pas à la « sagesse des grands groupes » [et peut-on parler de « foule » (crowd) avec 18 étudiants ?] soit parce qu’ils estiment que la note « A » devrait être réservée aux travaux exceptionnels.

« Some [critiques] came from those who had tried the method and failed, as one educator from Buffalo wrote, because groups of students blindly and consistently marked up or down other students’ work “in order to increase their own grade in the class favorably, and hurt others’ grades.” Others, like a professor from New York University, saw success in a crowdsource grading approach for a large, interdisciplinary undergraduate courses.

Still others defended the traditional grading system. One professor, though hesitant to call the American grading system an “absolute good,” said allowing students to start at an A, or earn an A by merely completing assignments, was equating “doing fine” — which would earn a ‘C’ in his own classes — to “doing excellent,” which should earn an A.

“We ought to take the idea of excellence very, very seriously,” he wrote. » (Hendry, 2009)

Davidson évoque cet épisode dans une courte vidéo (1 min 05) :

Dans son plus récent livre Now You See It (2011), Davidson revient sur le débat entourant son choix d’évaluation.  Le Chronicle of Higher
publiait en août 2011 un article reprenant plusieurs extraits des chapitres 3 et 4 de son livre.  Elle y expose notamment sa vision de l’externalisation ouverte…

« Crowdsourced thinking is very different from « credentialing, » or relying on top-down expertise. If anything, crowdsourcing is suspicious of expertise, because the more expert we are, the more likely we are to be limited in what we conceive to be the problem, let alone the answer. »

…Et sa perception de notre dépendance à certaines formes d’évaluation :

« There are many ways of crowdsourcing, and mine was simply to extend the concept of peer leadership to grading. The blogosphere was convinced that either I or my students would be pulling a fast one if the grading were crowdsourced and students had a role in it. That says to me that we don’t believe people can learn unless they are forced to, unless they know it will « count on the test. » As an educator, I find that very depressing. As a student of the Internet, I also find it implausible. If you give people the means to self-publish—whether it’s a photo from their iPhone or a blog—they do so. They seem to love learning and sharing what they know with others. But much of our emphasis on grading is based on the assumption that learning is like cod-liver oil: It is good for you, even though it tastes horrible going down. And much of our educational emphasis is on getting one answer right on one test—as if that says something about the quality of what you have learned or the likelihood that you will remember it after the test is over.

Grading, in a curious way, exemplifies our deepest convictions about excellence and authority, and specifically about the right of those with authority to define what constitutes excellence. If we crowdsource grading, we are suggesting that young people without credentials are fit to judge quality and value. Welcome to the Internet, where everyone’s a critic and anyone can express a view about the new iPhone, restaurant, or quarterback. That democratizing of who can pass judgment is digital thinking. As I found out, it is quite unsettling to people stuck in top-down models of formal education and authority. »

Son argument de base est donc à l’effet que dans la culture collaborative d’Internet, tous peuvent désormais être juges; non plus seulement les experts.  Il faut donc enseigner aux étudiants à bien le faire…  Le système d’évaluation traditionnel nous coince dans une logique pré-réseau où l’expertise a encore une valeur.

Peter Kerry Powers, un professeur de littérature, partageait le 13 septembre 2011 sur son blogue sa propre expérience en lien avec une forme d’évaluation ouverte.  Il laissa à ses étudiants d’un cours de critique littéraire le choix de déterminer un « classique » dans leurs lectures favorites:

« Can the wisdom of crowds decide what is most important?  To that, the answer can only be “sometimes”.  As often crowds choose what is conveniently at hand, satisfies a sweet tooth, or even the desire for revenge. Is there a distinction between what is important or what is true and what is merely popular?  Collaboration can lead us past blindnesses, but it is not clear that the subjectivity of a crowd is anything but blind […]. It is not clear that they can consistently be relied upon by their intuition to decide what ought to last. This may not be digital thinking, but at least it is thinking, something crowds cannot be always relied upon to do.

If we could really rely on crowds to make our choices, we would discover that there is really very little to choose between almost anything.  Going on Amazon, what is amazing is that four stars is the average score for all of the 100,000s of thousands of books that are catalogued.  […] Literally everything is above average and worth my time.  This is because in the world of the crowd, people mostly choose to be with those crowds that are most like themselves and read those things that are most likely to reinforce the sense they have that they are in the right crowd to begin with.  This is true as even elementary studies of internet usage have pointed out.  Liberals read other liberals, and delight in their wisdom and the folly of conservatives.  Conservatives read other conservatives and do likewise.  This too is digital thinking, and in this case it is quite easily seen that crowds can become authoritarian over and against the voice of the marginalized… »

La foule aurait donc ses propres préjugés et ne serait donc pas plus objective qu’un expert seul. Powers croit également que les étudiants de Duke faisant déjà partie de l’élite, ils sont plus aptes que la moyenne à comprendre et à faire ce qu’il faut pour obtenir des « A » : «  That is, in some sense Davidson is not really crowdsourcing at all but is relying on the certain educational processes that will deliver students well-attuned to certain forms of cultural excellence,  able to create effectively and “challenge” the status quot [sic] because they are already deeply embedded within those forms of culture excellence and all the assumptions they entail. »

Sources :

Davidson, Cathy N., « How To Crowdsource Grading », HASTAC, 26 juillet 2009
Davidson, Cathy N., « Collaborative Learning for the Digital Age », The Chronicle Review – The Chronicle of Higher Education, 26 août 2011
Guillaud, Hubert, « La montée du crowdsourcing », Internetactu.net, 6 juin 2006
Hendry, Erica, « Duke Professor Uses ‘Crowdsourcing’ to Grade », The Chronicle of Higher Education, 30 juillet 2009
Jaschik, Scott, « No Grading, More Learning », Inside Higher Ed, 3 mai 2010
Powers, Peter K., « Grading the Crowd », Read, Write, Now, 13 septembre 2011

Quand la didactique passe par le jeu... sérieux
Interne : Cégep international : une aide potentielle ou une concurrence pour les universités?


  1. Jean-Sébastien Dubé a écrit:

    Dans un autre billet, daté de 2010, Davidson parle de l’évaluation des enseignements par les étudiants non-experts comme autre exemple de « crowdsource grading » : http://hastac.org/blogs/cathy-davidson/crowdsource-grading-or-how-prof-d-got

  2. Eric Chamberland a écrit:

    La fin de ton billet est très importante pour moi pour équilibrer le discours sur le crowdsourcing : pour évaluer le travail d’autrui, il faut quand même avoir soi-même un certain bagage qui permette de porter un jugement. Il me paraît important de distinguer à qui peut-on « crowdsourcer » quoi. Les pages populaires de Wikipedia sont rédigées et entretenues par des membres qui ne sont pour la plupart pas des novices, sans toujours être des experts professionnels non plus. Mais les contributions inappropriées seront rapidement repérées et ajustées par d’autres contributeurs plus ferrés. Idem pour iStockPhoto, où il y a quand même une sélection qui est faite même si le public est invité à soumettre ses oeuvres.

Exprimez-vous !