Pédagogie miracle

Le projet Follow Through est « la plus vaste expérimentation à grande échelle jamais effectuée dans le domaine de l’éducation en Occident ». Menée de 1968 jusqu’à la fin des années 70, même si l’analyse des résultats se poursuit jusqu’en 95, son budget initialement prévu1Finalement, ce budget a été drastiquement revu à la baisse. est de 120 millions de dollars en 1968, soit près d’un milliards de dollars actuels.

Le but est de tester sur 350 000 élèves américains différentes méthodes d’enseignement afin de déterminer celle qui serait la plus efficace. Cet objectif s’intègre dans la politique de lutte contre la pauvreté de Lyndon Johnson afin d’améliorer l’efficacité du système éducatif américain. Les enjeux sont donc énormes tant les potentielles externalités sont importantes, et 22 méthodes pédagogiques différentes vont être essayées sur des élèves des 4 coins du pays.

On propose aux parents des écoles participantes au programme de choisir quelle méthode d’enseignement sera appliquée à leur enfant. Des groupes témoins reçoivent un enseignement traditionnel. Pour évaluer la pertinence d’une méthode vis-à-vis d’une autre, on teste 3 niveaux de compétences: les compétences de base (orthographe, grammaire), les compétences cognitives (raisonnement notamment) et enfin leurs réponses affectives (au niveau de la confiance en soit et du sens des responsabilités).

Parmi les méthodes testées, la plupart ont des résultats inférieurs à leurs pendants traditionnels suite à la tenue d’examens standardisées. Ce n’est non plus surprenant dans la mesure où elles ont été choisies arbitrairement par des parents d’élèves, et que les enseignants avaient eux-mêmes leurs propres méthodes de prédilection. Seule une des méthodologies se montre bien supérieure aux autres sur tous les plans lors des tests. Il s’agit de l’enseignement direct (Direct Instruction).

La 3e voie
Source: 3emevoie.org

L’hypothèse de base de l’instruction directe est la suivante:

“[…] Les enfants avec lesquels nous travaillons sont parfaitement capables d’apprendre tout ce que nous pouvons enseigner… Nous savons que les difficultés intellectuelles des enfants sont causées par une instruction fautive – pas des enfants fautifs. »

Engelmann & Carnine (1991)

Ainsi, dans l’instruction directe, l’enseignant utilise un script dirigiste et standardisé, souvent extrait d’un manuel scolaire et testé en amont, selon le scénario « I do, we do, you do ». La méthode, répétitive et mécanique, est centrée sur l’enseignant et non sur les élèves. On met en opposition cette vision de la pédagogie avec le mode de pensée « constructiviste » de l’éducation, l’approche selon laquelle l’apprentissage se fait par la découverte et l’expérimentation plutôt que la réception d’information passive et ennuyante. Les partisans de l’Instruction Directe estiment que les méthodes constructivistes « favorisent les enfants entrant à l’école préparés grâce à des parents cultivés et, ironiquement […] exacerbent la distribution inégale de la connaissance et des chances dans la vie. » La méthode Direct Instruction en classe, ça donne à peu près ça:

Les effets positifs de l’instruction direct sont attestés avec une taille d’effet supérieure à 0.602 . Stockard J, Wood TW, Coughlin C, Rasplica Khoury C. The Effectiveness of Direct Instruction Curricula: A Meta-Analysis of a Half Century of Research. Review of Educational Research. 2018;88(4):479-507. doi:10.3102/0034654317751919 ; sur 100 études, 86 mettent en évidence des effets positifs de la méthode3Jayasree N. “Effect of direct instruction model on achievement in select mathematical skills of upper primary pupils of Kerala”. Il faut croire que les pédagogues sont amateurs de méta-analyses, des études qui reprennent et analysent statistiquement des travaux réalisés à l’échelle locale, souvent sur seulement quelques classes. L’auteur du blog Nintil a réalisé une revue de littérature complète sur la méthode DI.

Les problèmes

Je vois beaucoup de gens hautement éduqués adopter ce mode de pensée:

1. La plupart des profs utilisent des méthodes progressistes.

2. La science prouve que l’Instruction Directe est plus efficace que les méthodes progressistes.

3. Si plus de profs utilisaient l’Instruction Directe, les élèves apprendraient plus, comme ils le faisaient avant quand l’école marchait mieux.

4. Les profs refusent d’utiliser l’Instruction Directe car ils sont a) formatés, b) fainéant, c) idéologues, d) d’autres raisons liées au fait que les profs seraient stupides.

Traduit de Education Realist

Les résultats du projet Follow Through n’ont pas été appliqués à grande échelle. Certains, comme Sam Hall dans le thread Twitter au début de cet article, invoquent des raisons quasiment complotistes; or, de nombreuses raisons liées en partie aux critiques qui sont adressés à cette méthode expliquent la désaffection du public pour l’Instruction Directe. Les énumérer serait long et délicat, bien qu’intéressant (peut-être une prochaine fois?). Néanmoins, suite au projet Follow Through, l’instruction direct a quand même pu être mise en place et testée dans divers contextes à travers le monde. Ce sont les résultats de ces applications dans des contextes variées, comme en Inde, au Qatar pour l’apprentissage de l’anglais par les arabophones ou dans les écoles du Queensland en Australie pour les populations aborigènes qui mettent en évidence aussi bien les avantages que les inconvénients de l’instruction directe. Les principaux problèmes soulevés sont:

  • L’élève est passif dans la relation émetteur-receveur dont il fait partie avec l’enseignant4Scherer, et al., 2006.
  • « Le processus de répétition, réplication et reproduction n’est pas adapté à notre économie actuelle basée sur la connaissance et l’innovation. »5Kalantzis, 2006, p.17
  • Dans le cas particulier des sciences, le modèle de transmission de la connaissance du Direct Instruction fait de ces matières des sujets à apprendre et non à comprendre; cela limite les discussions et les capacités de l’élève à s’approprier les concepts pour les manipuler. Dans ce cadre, les 3 éléments du triangle didactique sont isolés les uns des autres:
The didactic triangle from Ullström (2008) | Download Scientific Diagram
  • Par conséquent, plutôt que de provoquer la compréhension conceptuelle des concepts, les élèves développent leur socle de connaissance sur de la mémorisation de procédures6Cooney, 2001; D’Ambrosio & Harkness, 2004; Wood, et al., 2006. Comme il faut à tout prix suivre le script, l’absence de discussions à propos des sujets d’apprentissage, par exemple à propos des sciences, n’aide pas.
  • L’enseignement direct se base aussi sur des manuels, qui vont contenir « le script » à suivre pour les professeurs; à terme, ils se substituent presque à l’enseignant. Or ils sont pour la plupart standardisés. Raman (2004) a mis en évidence que 3 manuels de maths, pour des niveaux lycée et université, contenaient les mêmes textes d’explication malgré les niveaux très différents.
  • La nature standardisée des manuels fait qu’ils peuvent ne pas être adaptés à des élèves de niveaux différents ou même de groupes culturels différents.

Pour ces raisons (et d’autres encore), selon ses détracteurs, la méthode DI est associée à un manque d’implications et de créativité des étudiants. Elle n’est pas populaire; on lui préfère partout dans le monde des méthodes plus progressistes. Là où elle l’est, elle est appliquée aux élèves de 6 à 11 ans. Jack Schneider, assistant-professeur au Collège Holy Cross dans le Massachusetts, dit d’ailleurs « l’Instruction Directe marche. Et je n’enverrai jamais mes enfants dans une école qui l’emploie. »

Et ce n’est pas comme si les méthodes dites progressives n’étaient pas « efficaces »7Cf. iii. Une méta-analyse d’expériences pédagogiques centrées sur l’étudiant (donc totalement différent et en opposition avec l’Instruction Directe) retourne un effet de taille moyen de 0.5. N’est-ce pas étrange que des tentatives d’appliquer deux méthodes pédagogiques non seulement différentes, mais aussi radicalement opposées idéologiquement aient la même efficacité?

On peut tirer beaucoup de conclusions de cette démarche. J’aurais pu écrire cet article dans l’autre sens, et consacrer le premier paragraphe à la présentation d’une méthode miracle qu’on nous cache pour éduquer nos enfants: la pédagogie constructiviste, pour la démonter dans le deuxième paragraphe en reprenant les arguments des pro-Direct Instruction. Je me serais appuyé sur des éléments similaires, des méta-analyses qui compilent des dizaines de recherchent prouvant l’efficacité de ces méthodes et des critiques adressant certains de ses aspects particuliers. Dans ce cas, l‘épistémologie modeste s’impose. Citation complète:

Je vois beaucoup de gens hautement éduqués adopter ce mode de pensée:

1. La plupart des profs utilisent des méthodes progressistes.

2. La science prouve que l’Instruction Directe est plus efficace que les méthodes progressistes.

3. Si plus de profs utilisaient l’Instruction Directe, les élèves apprendraient plus, comme ils le faisaient avant quand l’école marchait mieux.

4. Les profs refusent d’utiliser l’Instruction Directe car ils sont a) formatés, b) fainéant, c) idéologues, d) d’autres raisons invoquant leur bêtise.

Ces croyances sont soit complètement fausses soit, au mieux, incomplètes. Je me demande si ces idées amènent les Mark Zuckerbergs et Bill Gates de ce monde à penser qu’on peut améliorer le système éducatif simplement – qu’en faisant en sorte que les profs expliquent les choses plus clairement on verra alors une énorme amélioration du niveau académique.

Mais ce n’est pas si simple. Rien dans l’éducation n’est simple.

Traduit de Education Realist

Un autre regard

En résumé, si nous considérons notre effort professionnel comme une recherche de la meilleure méthode [pédagogique] qui, une fois trouvée, remplacerais toutes les autres méthodes, il se peut que non seulement que nous nous efforçons d’atteindre un objectif irréalisable mais aussi que, dans le processus, nous envisageons la nature de l’enseignement comme un ensemble de procédures qui peuvent, à elles seules, être porteuses d’une garantie de résultats d’apprentissage.

Dire que la meilleure méthode varie d’un contexte d’enseignement à un autre n’aide pas, car cela ne fait pas avancer la recherche d’une méthode objectivement meilleure indépendamment du contexte.

Dire qu’il y a une part de vérité dans chaque méthode n’aide pas non plus, car cela ne nous explique toujours pas quelle aspect de chaque méthode est efficace.

L’évaluation objective de méthodes doit soit supposer que les méthodes ont une valeur indépendamment des enseignants et de l’interprétation subjective qu’en font les élèves, perpétuant ainsi ces objectifs irréalisables et renforçant la mauvaise interprétation de la pédagogie, soit essayer de prendre en compte la compréhension subjective des enseignants, ce qui l’empêche ainsi d’être évaluée objectivement.

« There Is No Best Method-Why? », N. S. Prabhu (1990), TESOL Quarterly Vol. 24, No. 2, pp. 161-176 (16 pages), Published by: Teachers of English to Speakers of Other Languages, Inc. (TESOL)

Agréger des prédictions

Prêtresse de Delphes, John Collier (1891)

Une prédiction comporte 2 éléments: un événement auquel elle se rapporte et une probabilité qui lui est associé. Par exemple, « Joe Biden a 62% de gagner les élections présidentielles de novembre 2020 » est une prédiction.

Ce post de Jsevillamol publié sur Lesswrong étudie comment agréger les prédictions de plusieurs sources pour en déduire une unique probabilité quant à l’événement en question. Tirer une probabilité de plusieurs sources différentes permet d’éviter d’avoir à distinguer lequel des deux prédicateurs est le plus précis. L’agrégation améliore en théorie la précision de la prédiction en diminuant les biais inhérents à leurs sources et aux différentes informations auxquels ils pourraient avoir accès. On aurait une meilleure connaissance des chances de Joe Biden a l’élection en agrégeant les avis de plusieurs personnes informées qu’en se basant sur une seule d’entre elles.

i.

Le contexte de la prédiction d’événements humains (par exemple le résultat des élections américaines, d’un match de foot…) représente un environnement particulier pour agréger des prédictions, car contrairement aux domaines où on applique ces techniques couramment comme les prédictions météorologiques ou les phénomènes naturels:

  • L’échantillon de données est limité: pour prédire les précipitations à Paris, nous avons les données pour chaque jour voire chaque heure depuis des années. Pour prédire le vainqueur d’une élection, nous avons comme seuls antécédents… les élections précédentes.
  • Ces phénomènes sont infiniment complexes: prédire la météo est une tâche d’une grande complication. Cependant, on arrive maintenant à peu près à comprendre les mécanismes en jeu. Pour prédire le résultat du choix d’un président par 330 millions d’habitants, vivant chacun une existence indépendante, les facteurs en jeu sont innombrables. Nous en avons eu la preuve: peu ont prédit l’arrivée au pouvoir de Donald Trump en 2016.
  • Corollaire de ces deux points: on ne peut pas attester de la fiabilité d’une source. Dans l’exemple des précipitations, pour voir si un prédicateur est digne de confiance, rien de plus simple. Il suffit de voir chaque jour si la quantité de pluie qui tombe correspond à la prédiction. Pour un événement comme les élections américaines, il y a peu de précédents, et ils remontent à longtemps. Les performances passées, si elles sont mesurables, seront donc moins à même de préfigurer les performances futures.

Pour toutes ces raisons, il serait intéressant de trouver une méthode qui ne repose ni sur la fiabilité des sources que l’on prend en compte ni des performances passées, les deux étant liés.

Dans la littérature scientifique, la mesure la plus communément utilisée pour évaluer la précision d’un prédicateur est le score de Brier. Dans le cas le plus simple d’une variable binaire (qui n’a que 2 états possibles; exemple: Donald Trump sera-t-il vainqueur de l’élection), on calcule le score de Brier par

Brier Score: Definition, Examples - Statistics How To

en faisant la somme au carré des différences entre probabilités prédites (ft) et résultats (outcome ot, valant 0 ou 1 si l’événement a finalement lieu ou pas) pondérée par l’inverse du nombre de prévisions. Wikhydro donne un bon exemple de calcul du score de Brier:

 Il existe un risque de remontée du Saint-Laurent par des calamars géants si le débit de ce fleuve dépasse 0,3 m3/s. Les calamars géants sont en effet attirés par les odeurs de poutine (un des plats nationaux du Québec). Afin d’éviter un scénario catastrophe dans lequel le poids des journalistes de CNN rassemblés pour couvrir l’événement ferait rompre le pont entre Lévis et Québec, le service de prévision des crues d’Abu Dhabi émet tous les mois une prévision probabiliste du dépassement de ce débit seuil. Le tableau suivant donne les prévisions et les observations en 2086:

Inc295.bmp
Ce qui donne après calcul un score de Brier total de 0.1975

Selon Ranjan et Gneiting (2010), la plupart des modèles actuels d’agrégation de prédictions reposent sur une combinaison linéaire de prédictions individuelles pondérées. On assigne à chaque prédicateur un coefficient qui reflète son importance. On peut par exemple assigner un poids plus important aux prédicateurs qui sont plus précis. Une simple agrégation à coefficient égal (ELP) permet de diminuer le score de Brier d’un ensemble de prédiction (et donc d’améliorer leurs précisions) de deux prédicteurs indépendants p1 et p2 dans le tableau suivant. L’optimisation des coefficients (OLP) n’a qu’un effet minime sur le score de Brier. D’ailleurs, de nombreux auteurs recommandent de ne pas optimiser les poids si ce n’est pas fait en connaissance de cause1 Armstrong (2001), Clemen (1989), and Graefe, Armstrong, Jones, and Cuzán (2014), cités dans Combining multiple probability predictions using a simple logit model, Satopää et Al. (2014)

Beaucoup d’alternatives2 Satopää cite Bordley, 1982 ou Polyakova et
Journel, 2007.
sont proposées à cette méthode qui, selon Allard, Comunian et Renard (2012), est moins efficace que les agrégations multiplicatives; nous allons les étudier au paragraphe suivant.

ii.

Quand on essaie d’agréger des prédictions, deux biais majeurs doivent être pris en compte, des biais qui affectent même les prédictions que l’on fait aussi dans notre vie quotidienne:

Pour corriger ces erreurs systématiques, il est intéressant de faire subir une transformation aux probabilités des prédictions. Le coefficient a représente ici le niveau de biais systématique:

Utiliser a = 1 ne transforme pas les données, mais une valeur a différente de 1 les modifie dans un sens ou l’autre. a>1 est associé a des prédicateurs peu confiants et a<1 a des experts (donc trop confiants).

enter image description here
Transformation de p en fonction de a (source)

Baron et al. (2015) donne la transformation optimale par rapport au score de Brier dans le cadre de leur expérience, en comparant les scores avec transformations aux scores sans transformations (a=1). Ces valeurs nous donnent une idée d’approximation générale de a:

Une autre approche d’agrégation est présente dans l’article « Combining multiple probability predictions using a simple logit model » (Satopää et al., 2014).

La méthode de Satopää et al. (2014) prend en compte les biais détaillés précédemment grâce à une formule que l’on retrouve pour la première fois dans un article datant de 1978. L’agrégateur pour un événement à deux issues possibles est le suivant:

Avec pi la probabilité prédite par le prédicateur i, N le nombre de prédictions, et a le terme de biais systématique. On peut remplacer le terme en 1/N par des poids wi.

Le coefficient a est le même que dans la formule de Baron et al. (2015). Pour éviter le problème que peuvent poser les probabilités 0 et 1, on choisit de remplacer les valeurs p=0 par p=0.01 et p=1 par p=0.994Ariely et al., 2000. Dans les faits, la valeur de a optimale est corrélée avec le niveau d’expertise des prédicateurs:

Cependant, sur l’ensemble des prédicateurs, on retrouve une valeur optimale de a proche de 2. Cela confirme les approximations précédentes de Baron et al. (2015):

Cet agrégateur a de bonnes performances. On remarque que la méthode BELP5présentée dans Allard et al., (2012)6 donne aussi un score de BRIER faible; cependant, elle a tendance à overfitter le set de donnée utilisé par l’étude de Satopää et al. (2014).

On retient donc 3 points de cette étude:

  • Un prédicateur a tendance a sous-estimer les faibles probabilités, surestimer les fortes probabilités et à être sous-confiant vis-à-vis dans son estimation de probabilités.
  • Il existe plusieurs moyens d’agréger des prédictions; celles de Satopää et al. (2014) et Baron et al. (2015) détaillées ici sont plus performante que les combinaisons linéaires généralement utilisées, car elles transforment les probabilités pour corriger ces biais.
  • Lors de l’utilisation de ces 2 formules, on peut approximer la variable a dans l’intervalle [2;2.5].