Pédagogie miracle

Le projet Follow Through est « la plus vaste expérimentation à grande échelle jamais effectuée dans le domaine de l’éducation en Occident ». Menée de 1968 jusqu’à la fin des années 70, même si l’analyse des résultats se poursuit jusqu’en 95, son budget initialement prévu1Finalement, ce budget a été drastiquement revu à la baisse. est de 120 millions de dollars en 1968, soit près d’un milliards de dollars actuels.

Le but est de tester sur 350 000 élèves américains différentes méthodes d’enseignement afin de déterminer celle qui serait la plus efficace. Cet objectif s’intègre dans la politique de lutte contre la pauvreté de Lyndon Johnson afin d’améliorer l’efficacité du système éducatif américain. Les enjeux sont donc énormes tant les potentielles externalités sont importantes, et 22 méthodes pédagogiques différentes vont être essayées sur des élèves des 4 coins du pays.

On propose aux parents des écoles participantes au programme de choisir quelle méthode d’enseignement sera appliquée à leur enfant. Des groupes témoins reçoivent un enseignement traditionnel. Pour évaluer la pertinence d’une méthode vis-à-vis d’une autre, on teste 3 niveaux de compétences: les compétences de base (orthographe, grammaire), les compétences cognitives (raisonnement notamment) et enfin leurs réponses affectives (au niveau de la confiance en soit et du sens des responsabilités).

Parmi les méthodes testées, la plupart ont des résultats inférieurs à leurs pendants traditionnels suite à la tenue d’examens standardisées. Ce n’est non plus surprenant dans la mesure où elles ont été choisies arbitrairement par des parents d’élèves, et que les enseignants avaient eux-mêmes leurs propres méthodes de prédilection. Seule une des méthodologies se montre bien supérieure aux autres sur tous les plans lors des tests. Il s’agit de l’enseignement direct (Direct Instruction).

La 3e voie
Source: 3emevoie.org

L’hypothèse de base de l’instruction directe est la suivante:

“[…] Les enfants avec lesquels nous travaillons sont parfaitement capables d’apprendre tout ce que nous pouvons enseigner… Nous savons que les difficultés intellectuelles des enfants sont causées par une instruction fautive – pas des enfants fautifs. »

Engelmann & Carnine (1991)

Ainsi, dans l’instruction directe, l’enseignant utilise un script dirigiste et standardisé, souvent extrait d’un manuel scolaire et testé en amont, selon le scénario « I do, we do, you do ». La méthode, répétitive et mécanique, est centrée sur l’enseignant et non sur les élèves. On met en opposition cette vision de la pédagogie avec le mode de pensée « constructiviste » de l’éducation, l’approche selon laquelle l’apprentissage se fait par la découverte et l’expérimentation plutôt que la réception d’information passive et ennuyante. Les partisans de l’Instruction Directe estiment que les méthodes constructivistes « favorisent les enfants entrant à l’école préparés grâce à des parents cultivés et, ironiquement […] exacerbent la distribution inégale de la connaissance et des chances dans la vie. » La méthode Direct Instruction en classe, ça donne à peu près ça:

Les effets positifs de l’instruction direct sont attestés avec une taille d’effet supérieure à 0.602 . Stockard J, Wood TW, Coughlin C, Rasplica Khoury C. The Effectiveness of Direct Instruction Curricula: A Meta-Analysis of a Half Century of Research. Review of Educational Research. 2018;88(4):479-507. doi:10.3102/0034654317751919 ; sur 100 études, 86 mettent en évidence des effets positifs de la méthode3Jayasree N. “Effect of direct instruction model on achievement in select mathematical skills of upper primary pupils of Kerala”. Il faut croire que les pédagogues sont amateurs de méta-analyses, des études qui reprennent et analysent statistiquement des travaux réalisés à l’échelle locale, souvent sur seulement quelques classes. L’auteur du blog Nintil a réalisé une revue de littérature complète sur la méthode DI.

Les problèmes

Je vois beaucoup de gens hautement éduqués adopter ce mode de pensée:

1. La plupart des profs utilisent des méthodes progressistes.

2. La science prouve que l’Instruction Directe est plus efficace que les méthodes progressistes.

3. Si plus de profs utilisaient l’Instruction Directe, les élèves apprendraient plus, comme ils le faisaient avant quand l’école marchait mieux.

4. Les profs refusent d’utiliser l’Instruction Directe car ils sont a) formatés, b) fainéant, c) idéologues, d) d’autres raisons liées au fait que les profs seraient stupides.

Traduit de Education Realist

Les résultats du projet Follow Through n’ont pas été appliqués à grande échelle. Certains, comme Sam Hall dans le thread Twitter au début de cet article, invoquent des raisons quasiment complotistes; or, de nombreuses raisons liées en partie aux critiques qui sont adressés à cette méthode expliquent la désaffection du public pour l’Instruction Directe. Les énumérer serait long et délicat, bien qu’intéressant (peut-être une prochaine fois?). Néanmoins, suite au projet Follow Through, l’instruction direct a quand même pu être mise en place et testée dans divers contextes à travers le monde. Ce sont les résultats de ces applications dans des contextes variées, comme en Inde, au Qatar pour l’apprentissage de l’anglais par les arabophones ou dans les écoles du Queensland en Australie pour les populations aborigènes qui mettent en évidence aussi bien les avantages que les inconvénients de l’instruction directe. Les principaux problèmes soulevés sont:

  • L’élève est passif dans la relation émetteur-receveur dont il fait partie avec l’enseignant4Scherer, et al., 2006.
  • « Le processus de répétition, réplication et reproduction n’est pas adapté à notre économie actuelle basée sur la connaissance et l’innovation. »5Kalantzis, 2006, p.17
  • Dans le cas particulier des sciences, le modèle de transmission de la connaissance du Direct Instruction fait de ces matières des sujets à apprendre et non à comprendre; cela limite les discussions et les capacités de l’élève à s’approprier les concepts pour les manipuler. Dans ce cadre, les 3 éléments du triangle didactique sont isolés les uns des autres:
The didactic triangle from Ullström (2008) | Download Scientific Diagram
  • Par conséquent, plutôt que de provoquer la compréhension conceptuelle des concepts, les élèves développent leur socle de connaissance sur de la mémorisation de procédures6Cooney, 2001; D’Ambrosio & Harkness, 2004; Wood, et al., 2006. Comme il faut à tout prix suivre le script, l’absence de discussions à propos des sujets d’apprentissage, par exemple à propos des sciences, n’aide pas.
  • L’enseignement direct se base aussi sur des manuels, qui vont contenir « le script » à suivre pour les professeurs; à terme, ils se substituent presque à l’enseignant. Or ils sont pour la plupart standardisés. Raman (2004) a mis en évidence que 3 manuels de maths, pour des niveaux lycée et université, contenaient les mêmes textes d’explication malgré les niveaux très différents.
  • La nature standardisée des manuels fait qu’ils peuvent ne pas être adaptés à des élèves de niveaux différents ou même de groupes culturels différents.

Pour ces raisons (et d’autres encore), selon ses détracteurs, la méthode DI est associée à un manque d’implications et de créativité des étudiants. Elle n’est pas populaire; on lui préfère partout dans le monde des méthodes plus progressistes. Là où elle l’est, elle est appliquée aux élèves de 6 à 11 ans. Jack Schneider, assistant-professeur au Collège Holy Cross dans le Massachusetts, dit d’ailleurs « l’Instruction Directe marche. Et je n’enverrai jamais mes enfants dans une école qui l’emploie. »

Et ce n’est pas comme si les méthodes dites progressives n’étaient pas « efficaces »7Cf. iii. Une méta-analyse d’expériences pédagogiques centrées sur l’étudiant (donc totalement différent et en opposition avec l’Instruction Directe) retourne un effet de taille moyen de 0.5. N’est-ce pas étrange que des tentatives d’appliquer deux méthodes pédagogiques non seulement différentes, mais aussi radicalement opposées idéologiquement aient la même efficacité?

On peut tirer beaucoup de conclusions de cette démarche. J’aurais pu écrire cet article dans l’autre sens, et consacrer le premier paragraphe à la présentation d’une méthode miracle qu’on nous cache pour éduquer nos enfants: la pédagogie constructiviste, pour la démonter dans le deuxième paragraphe en reprenant les arguments des pro-Direct Instruction. Je me serais appuyé sur des éléments similaires, des méta-analyses qui compilent des dizaines de recherchent prouvant l’efficacité de ces méthodes et des critiques adressant certains de ses aspects particuliers. Dans ce cas, l‘épistémologie modeste s’impose. Citation complète:

Je vois beaucoup de gens hautement éduqués adopter ce mode de pensée:

1. La plupart des profs utilisent des méthodes progressistes.

2. La science prouve que l’Instruction Directe est plus efficace que les méthodes progressistes.

3. Si plus de profs utilisaient l’Instruction Directe, les élèves apprendraient plus, comme ils le faisaient avant quand l’école marchait mieux.

4. Les profs refusent d’utiliser l’Instruction Directe car ils sont a) formatés, b) fainéant, c) idéologues, d) d’autres raisons invoquant leur bêtise.

Ces croyances sont soit complètement fausses soit, au mieux, incomplètes. Je me demande si ces idées amènent les Mark Zuckerbergs et Bill Gates de ce monde à penser qu’on peut améliorer le système éducatif simplement – qu’en faisant en sorte que les profs expliquent les choses plus clairement on verra alors une énorme amélioration du niveau académique.

Mais ce n’est pas si simple. Rien dans l’éducation n’est simple.

Traduit de Education Realist

Un autre regard

En résumé, si nous considérons notre effort professionnel comme une recherche de la meilleure méthode [pédagogique] qui, une fois trouvée, remplacerais toutes les autres méthodes, il se peut que non seulement que nous nous efforçons d’atteindre un objectif irréalisable mais aussi que, dans le processus, nous envisageons la nature de l’enseignement comme un ensemble de procédures qui peuvent, à elles seules, être porteuses d’une garantie de résultats d’apprentissage.

Dire que la meilleure méthode varie d’un contexte d’enseignement à un autre n’aide pas, car cela ne fait pas avancer la recherche d’une méthode objectivement meilleure indépendamment du contexte.

Dire qu’il y a une part de vérité dans chaque méthode n’aide pas non plus, car cela ne nous explique toujours pas quelle aspect de chaque méthode est efficace.

L’évaluation objective de méthodes doit soit supposer que les méthodes ont une valeur indépendamment des enseignants et de l’interprétation subjective qu’en font les élèves, perpétuant ainsi ces objectifs irréalisables et renforçant la mauvaise interprétation de la pédagogie, soit essayer de prendre en compte la compréhension subjective des enseignants, ce qui l’empêche ainsi d’être évaluée objectivement.

« There Is No Best Method-Why? », N. S. Prabhu (1990), TESOL Quarterly Vol. 24, No. 2, pp. 161-176 (16 pages), Published by: Teachers of English to Speakers of Other Languages, Inc. (TESOL)

Modestie, marché efficients et équilibres non adéquats

Paysages, Modest Urgell (1839-1919)

Comment expliquer que certains aspects de notre société ne fonctionnent manifestement pas, mais que tout le monde s’en accommode?

Eliezer Yudkowsky veut répondre à deux questions dans Inadequate Inequilibria: comment la société se retrouve dans des situations où des systèmes entiers vont de travers, et quand faut-il penser « mieux savoir » que la société pour remédier à ces impasses.

i.

Deux économistes marchent le long d’une rue. Soudain, l’un d’eux s’exclame: « Oh, regarde, là par terre, un billet de 20 euros ». L’autre regarde par terre et lui répond : « C’est pas possible, ça doit être un mirage. S’il y avait un billet de 20, quelqu’un l’aurait déjà ramassé ».

Imaginez une ruelle peu fréquentée, où quelqu’un a fait tomber un billet de 20€ entre une bouche d’égout et un mur dégoulinant de vomi. Le billet peut rester là une matinée entière avant que quelqu’un ne le ramasse.

Prenez ce même billet et laissez-le sur les Champs Élysées. En quelques secondes, quelqu’un l’a déjà`pris et rentre chez lui content de sa trouvaille.

Les marchés économiques efficients, c’est-à-dire les marchés où il y a assez d’acteurs cherchant à gagner de l’argent, sont comme les Champs Élysées. Il y a des milliers de génies, doctorants et gérants de hedge funds qui à Wall Street ou la Citi passent toutes leurs journées à trouver des opportunités en bourses, à chercher des billets de 20 par terre.

Si Roger, du fin fond de sa cabane, après avoir lu 3 articles sur Apple, pense avoir trouvé une géniale opportunité en bourse, il se trompe sûrement, car des milliers de mecs plus intelligents, plus informés, avec plus de moyens techniques auraient déjà sauté sur l’occasion. En fait, il croit avoir trouvé un billet traîner par terre dans une avenue ou des hommes en cherchent H24 avec des loupes. Dans un marché efficient, il n’y a pas de billet de 20 balles posées en pleine rue, de profits faciles. Le marché reflète toutes les informations disponibles à son sujet. Le cours de l’action d’Apple, dont il s’échange 45 millions d’actions à 500 dollars par jours, reflète toutes les informations disponibles sur l’entreprise.

Ça ne veut pas dire que Roger ne fera pas d’argent en achetant les actions Apple; le cours de l’action évolue en fonction des aléas du marché et des informations disponibles au sujet de l’entreprise. L’hypothèse des marchés efficients dit juste que si l’action AAPL était sous-évaluée de façon si flagrante que le novice Roger l’ait vu, alors des dizaines de traders auraient vu la faille avant lui et auraient acheté en masse l’action AAPL, faisant donc remonter le prix et supprimant l’opportunité vue par Roger.

On peut généraliser l’hypothèse des marchés efficients à beaucoup de choses de la vie quotidienne. Imaginons un étudiant en biologie qui vous raconte qu’en révisant pour ses partiels il a découvert une théorie incroyable sur la nature de l’ADN. Vous auriez du mal à y croire. Si sa théorie est si révolutionnaire, pourquoi les centaines de chercheurs en biologie moléculaire n’auraient-ils pas fait cette découverte plus tôt? Ici, on peut remplacer « le billet de 20 » par « un prix Nobel »; les biologistes du monde entier cherchent chaque jour des opportunités de remporter des Prix Nobel (des Prix Nobel qui traînent par terre dans la rue); s’il y en avait une si simple qu’un étudiant l’aurait trouvé par lui-même, alors ces chercheurs auraient dû l’avoir découvert depuis belle lurette. On a de nos jours moins d’étudiants qui font des découvertes sensationnelles qu’à une époque où les sciences étaient moins spécialisées, et donc où la concurrence entre chercheurs était moindre.

ii.

Pendant des années, la banque centrale du Japon a maintenu une ligne directrice peu inflationniste. Yudkowsky était à l’époque critique de cette politique; il jugeait qu’elle bridait leur économie. L’économie n’est absolument pas son domaine d’expertise, lui qui est chercheur en intelligence artificielle hors il n’a pas produit ce jugement tout seul. Il adhérait seulement à un point de vue adopté par des économistes influents, en le comparant au point de vue opposé. Après des années, la banque centrale japonaise a ajusté sa politique comme Yudkowsky le préconisait, ce qui s’est soldé par une amélioration de la situation économique du pays.

C’est étrange; comment des experts internationaux en finance, les meilleurs du Japon, ont pu se tromper à ce point sur un sujet et fait perdre des milliards au Japon là où même quelqu’un sans aucune expertise en la matière a pu voir juste?

Premièrement, il n’y avait pas de carotte pour inciter les experts de la banque centrale du Japon à trouver une ligne directrice plus favorable à l’économie du pays. À l’époque, avant que la FED ne normalise le fait de faire chauffer la planche à billets, une politique peu inflationniste était vue comme sûre et raisonnable.

Même si beaucoup de traders pensaient la même chose qu’Eliezer Yudkowsky de cette politique, ils avaient ajusté le prix des actifs japonais en adéquation avec cette opinion. Enfin, ceux qui pensaient, comme Yudkowsky, que la banque centrale avait tort ne pouvaient pas exploiter cette connaissance en la monétisant. Scott Alexander a donc établi cette matrice de risques/bénéfices pour les experts de la Banque du Japon:

FAIBLE INFLATION, BOOM ÉCONOMIQUE : Vous avez établi une politique raisonnable et cela a payé, vous serez célébrés pour toujours (+10).

FAIBLE INFLATION, L’ÉCONOMIE S’EFFONDRE : Vous avez fait le choix considéré le plus sage et noble, pourtant ça n’a pas marché, au moins vous avez essayé (+0).

FORTE INFLATION, BOOM ÉCONOMIQUE : Vous avez fait un pari audacieux et cela à payé, beau travail. (+10)

FORTE INFLATION, L’ÉCONOMIE S’EFFONDRE : Vous avez fait une chose stupide que tout le monde dit toujours de ne pas faire, vous avez échoué comme prévu et détruit notre économie, allez vous faire foutre (-10)

Slate Star Codex, Scott Alexander

On voit donc que la meilleure solution, de leur point de vue, est de ne pas changer les taux d’intérêt, même si ça coûte des milliards à l’économie japonaise.

Voilà là un exemple type de comment la société se retrouve coincée dans une situation où il existe un point d’équilibre meilleur pour tous les citoyens, que tout le monde le sait, mais que rien ne bouge. Il appelle cela des systèmes inadéquats, qui peuvent être différents des marchés efficients puisqu’ils ont, au choix (déroulez les notes pour avoir des exemples):

  • Des décisions prises par des acteurs qui ne tirent pas profit d’une amélioration du système, comme dans l’exemple du Japon.
  • Une asymétrie au niveau de l’information disponible, ou certains acteurs du système ne peuvent pas faire confiance à d’autres acteurs pour prendre une décision même si ceux-ci ont des informations intéressantes.
  • Un équilibre de Nash: trop d’acteurs aux intérêts divergents sont en jeu, et il est impossible de changer le système sans que ces acteurs se coordonnent1Yudkowsky donne l’exemple de deux applis. Imaginons une application très populaire de ventes de particulier à particulier qui s’appelle Le Mauvais Coin. Un beau jour, une petite start-up lance L’Excellent Coin, une application qui fait la même chose que Le Mauvais Coin, mais en mieux. Clairement, tous les utilisateurs de Le Mauvais Coin auraient intérêt à basculer sur l’appli l’Excellent Coin. Cependant, il n’y a aucun utilisateur dessus, car elle vient d’être lancée; il y a donc peu de vendeurs et peu d’acheteurs. Du coup, les utilisateurs restent sur Le Mauvais Coin, même si l’autre appli est objectivement mieux, vu que ce qui leur importe c’est vendre et acheter des produits. Cet équilibre de Nash est difficile à briser à moins qu’une part importante des utilisateurs ne décident de basculer sur l’appli l’Excellent Coin.

Les systèmes inadéquats, contrairement à ceux efficients, sont souvent inexploitables: il n’est pas possible de tirer profit de leur inadéquation. Même si on savait que la banque centrale du Japon avait faux sur toute la ligne, il était impossible de gagner de l’argent grâce à cette opinion.

iii.

La deuxième partie du livre relève plus du développement personnel que de la théorie économique. Pour Yudkowsky, il est facile d’assimiler tous les systèmes à des systèmes efficients et de tomber dans ce qu’il appelle « l’épistémologie modeste »: se dire que s’il y a vraiment quelque chose à améliorer, quelqu’un l’aurait déjà fait, et que croire que si on peut améliorer quelque chose c’est penser qu’on est meilleur que les autres.

L’épistémologie modeste est causée par deux phénomènes:

  • La peur de prendre une position, ou de prendre une décision et d’échouer.
  • La question du statut: on pense toujours ne pas avoir un statut assez bon pour prendre une décision sur un sujet. Les experts de la Banque Centrales du Japon sont indéniablement des experts. Comme ils font autorité dans leur domaine, les gens peuvent être hésitants à critiquer leurs prises de décisions dans leur domaine d’expertise. Or, des individus assez rationnels pour adopter un point de vue cynique et aller au-delà de ces questions de statut ont pris position contre ces experts. Et ils avaient raison.

Pour ne pas être un épistémologue modeste, il ne faut pas pêcher par excès de confiance en soi, bien au contraire. Il faut adopter la boite à outils conceptuelle présentée plus haut pour repérer les systèmes qui sont efficients, repérer ceux qui sont inadéquats, et repérer si leurs inadéquations sont exploitables.

Passer une vie à s’adapter à une civilisation inadéquate ressemble à ça:

0 à 2 fois par vie: répondre « Oui » à « Puis-je améliorer considérablement les connaissances actuelles de ma civilisation si je me mets à y travailler pendant des années? Quelques personnes, mais pas beaucoup, répondront « oui » à cette question suffisamment de fois pour le compter sur les doigts des deux mains. Passer aux orteils indique que vous êtes un cinglé.

Une fois par an environ, répondre « Oui » à la question « Puis-je générer une synthèse d’information qui battra la prochaine meilleure alternative de ma civilisation actuelle, pour moi seul (c’est-à-dire sans essayer de résoudre les problèmes liés à l’adoption généralisée de ma solution), après quelques semaines de recherche et un tas de tests et en demandant de l’aide de temps en temps ?

De nombreuses tentatives de choisir un parti déjà existant dans un conflit en cours entre experts, si vous pensez que vous pouvez suivre raisonnablement bien les arguments donnés de part et d’autre […]

L’accumulation de nombreux jugements de ce dernier type vous permet de prendre de nombreuses petites décisions quotidiennes (par exemple, sur ce que vous devez manger2ou pour qui voter) et vos capacités à faire des choses plus importantes (comme résoudre un problème de santé après un passage par le système médical qui s’est avéré infructueux, ou bien démarrer une start-up).

Inadequate Equilibria, Eliezer Yudkowsky

Au lieu de se poser la question de « est-ce que je suis plus rationnel/haut statut/meilleur que les autres », il faut expérimenter, parier et se demander qu’est-ce qu’il y a faire, qu’est ce qu’on peut faire, et comment le faire.

Si la première partie de l’ouvrage sur la théorie des systèmes inadéquat est intéressante, les conseils pour l’adapter à sa vie personnelle sont moins bien argumentés. On ne comprend pas bien les mécanismes de l’épistémologie modeste, encore moins en quoi elle est nocive, et surtout en quoi son opposé ne l’est pas. Selon Yudkowski, il ne faut pas adopter l’épistémologie modeste, car on en deviendrait paralysé par le constat que tout ait déjà été fait par des hommes plus compétents que nous; or, si on rejette cette épistémologie, comment ne pas tomber dans l’excès inverse comme, pour reprendre l’exemple du livre, les malades du cancer qui décident de se soigner avec des graines au lieu d’aller en chimiothérapie, car ils « savent mieux que les scientifiques » ?

Agréger des prédictions

Prêtresse de Delphes, John Collier (1891)

Une prédiction comporte 2 éléments: un événement auquel elle se rapporte et une probabilité qui lui est associé. Par exemple, « Joe Biden a 62% de gagner les élections présidentielles de novembre 2020 » est une prédiction.

Ce post de Jsevillamol publié sur Lesswrong étudie comment agréger les prédictions de plusieurs sources pour en déduire une unique probabilité quant à l’événement en question. Tirer une probabilité de plusieurs sources différentes permet d’éviter d’avoir à distinguer lequel des deux prédicateurs est le plus précis. L’agrégation améliore en théorie la précision de la prédiction en diminuant les biais inhérents à leurs sources et aux différentes informations auxquels ils pourraient avoir accès. On aurait une meilleure connaissance des chances de Joe Biden a l’élection en agrégeant les avis de plusieurs personnes informées qu’en se basant sur une seule d’entre elles.

i.

Le contexte de la prédiction d’événements humains (par exemple le résultat des élections américaines, d’un match de foot…) représente un environnement particulier pour agréger des prédictions, car contrairement aux domaines où on applique ces techniques couramment comme les prédictions météorologiques ou les phénomènes naturels:

  • L’échantillon de données est limité: pour prédire les précipitations à Paris, nous avons les données pour chaque jour voire chaque heure depuis des années. Pour prédire le vainqueur d’une élection, nous avons comme seuls antécédents… les élections précédentes.
  • Ces phénomènes sont infiniment complexes: prédire la météo est une tâche d’une grande complication. Cependant, on arrive maintenant à peu près à comprendre les mécanismes en jeu. Pour prédire le résultat du choix d’un président par 330 millions d’habitants, vivant chacun une existence indépendante, les facteurs en jeu sont innombrables. Nous en avons eu la preuve: peu ont prédit l’arrivée au pouvoir de Donald Trump en 2016.
  • Corollaire de ces deux points: on ne peut pas attester de la fiabilité d’une source. Dans l’exemple des précipitations, pour voir si un prédicateur est digne de confiance, rien de plus simple. Il suffit de voir chaque jour si la quantité de pluie qui tombe correspond à la prédiction. Pour un événement comme les élections américaines, il y a peu de précédents, et ils remontent à longtemps. Les performances passées, si elles sont mesurables, seront donc moins à même de préfigurer les performances futures.

Pour toutes ces raisons, il serait intéressant de trouver une méthode qui ne repose ni sur la fiabilité des sources que l’on prend en compte ni des performances passées, les deux étant liés.

Dans la littérature scientifique, la mesure la plus communément utilisée pour évaluer la précision d’un prédicateur est le score de Brier. Dans le cas le plus simple d’une variable binaire (qui n’a que 2 états possibles; exemple: Donald Trump sera-t-il vainqueur de l’élection), on calcule le score de Brier par

Brier Score: Definition, Examples - Statistics How To

en faisant la somme au carré des différences entre probabilités prédites (ft) et résultats (outcome ot, valant 0 ou 1 si l’événement a finalement lieu ou pas) pondérée par l’inverse du nombre de prévisions. Wikhydro donne un bon exemple de calcul du score de Brier:

 Il existe un risque de remontée du Saint-Laurent par des calamars géants si le débit de ce fleuve dépasse 0,3 m3/s. Les calamars géants sont en effet attirés par les odeurs de poutine (un des plats nationaux du Québec). Afin d’éviter un scénario catastrophe dans lequel le poids des journalistes de CNN rassemblés pour couvrir l’événement ferait rompre le pont entre Lévis et Québec, le service de prévision des crues d’Abu Dhabi émet tous les mois une prévision probabiliste du dépassement de ce débit seuil. Le tableau suivant donne les prévisions et les observations en 2086:

Inc295.bmp
Ce qui donne après calcul un score de Brier total de 0.1975

Selon Ranjan et Gneiting (2010), la plupart des modèles actuels d’agrégation de prédictions reposent sur une combinaison linéaire de prédictions individuelles pondérées. On assigne à chaque prédicateur un coefficient qui reflète son importance. On peut par exemple assigner un poids plus important aux prédicateurs qui sont plus précis. Une simple agrégation à coefficient égal (ELP) permet de diminuer le score de Brier d’un ensemble de prédiction (et donc d’améliorer leurs précisions) de deux prédicteurs indépendants p1 et p2 dans le tableau suivant. L’optimisation des coefficients (OLP) n’a qu’un effet minime sur le score de Brier. D’ailleurs, de nombreux auteurs recommandent de ne pas optimiser les poids si ce n’est pas fait en connaissance de cause1 Armstrong (2001), Clemen (1989), and Graefe, Armstrong, Jones, and Cuzán (2014), cités dans Combining multiple probability predictions using a simple logit model, Satopää et Al. (2014)

Beaucoup d’alternatives2 Satopää cite Bordley, 1982 ou Polyakova et
Journel, 2007.
sont proposées à cette méthode qui, selon Allard, Comunian et Renard (2012), est moins efficace que les agrégations multiplicatives; nous allons les étudier au paragraphe suivant.

ii.

Quand on essaie d’agréger des prédictions, deux biais majeurs doivent être pris en compte, des biais qui affectent même les prédictions que l’on fait aussi dans notre vie quotidienne:

Pour corriger ces erreurs systématiques, il est intéressant de faire subir une transformation aux probabilités des prédictions. Le coefficient a représente ici le niveau de biais systématique:

Utiliser a = 1 ne transforme pas les données, mais une valeur a différente de 1 les modifie dans un sens ou l’autre. a>1 est associé a des prédicateurs peu confiants et a<1 a des experts (donc trop confiants).

enter image description here
Transformation de p en fonction de a (source)

Baron et al. (2015) donne la transformation optimale par rapport au score de Brier dans le cadre de leur expérience, en comparant les scores avec transformations aux scores sans transformations (a=1). Ces valeurs nous donnent une idée d’approximation générale de a:

Une autre approche d’agrégation est présente dans l’article « Combining multiple probability predictions using a simple logit model » (Satopää et al., 2014).

La méthode de Satopää et al. (2014) prend en compte les biais détaillés précédemment grâce à une formule que l’on retrouve pour la première fois dans un article datant de 1978. L’agrégateur pour un événement à deux issues possibles est le suivant:

Avec pi la probabilité prédite par le prédicateur i, N le nombre de prédictions, et a le terme de biais systématique. On peut remplacer le terme en 1/N par des poids wi.

Le coefficient a est le même que dans la formule de Baron et al. (2015). Pour éviter le problème que peuvent poser les probabilités 0 et 1, on choisit de remplacer les valeurs p=0 par p=0.01 et p=1 par p=0.994Ariely et al., 2000. Dans les faits, la valeur de a optimale est corrélée avec le niveau d’expertise des prédicateurs:

Cependant, sur l’ensemble des prédicateurs, on retrouve une valeur optimale de a proche de 2. Cela confirme les approximations précédentes de Baron et al. (2015):

Cet agrégateur a de bonnes performances. On remarque que la méthode BELP5présentée dans Allard et al., (2012)6 donne aussi un score de BRIER faible; cependant, elle a tendance à overfitter le set de donnée utilisé par l’étude de Satopää et al. (2014).

On retient donc 3 points de cette étude:

  • Un prédicateur a tendance a sous-estimer les faibles probabilités, surestimer les fortes probabilités et à être sous-confiant vis-à-vis dans son estimation de probabilités.
  • Il existe plusieurs moyens d’agréger des prédictions; celles de Satopää et al. (2014) et Baron et al. (2015) détaillées ici sont plus performante que les combinaisons linéaires généralement utilisées, car elles transforment les probabilités pour corriger ces biais.
  • Lors de l’utilisation de ces 2 formules, on peut approximer la variable a dans l’intervalle [2;2.5].