Agréger des prédictions

Prêtresse de Delphes, John Collier (1891)

Une prédiction comporte 2 éléments: un événement auquel elle se rapporte et une probabilité qui lui est associé. Par exemple, « Joe Biden a 62% de gagner les élections présidentielles de novembre 2020 » est une prédiction.

Ce post de Jsevillamol publié sur Lesswrong étudie comment agréger les prédictions de plusieurs sources pour en déduire une unique probabilité quant à l’événement en question. Tirer une probabilité de plusieurs sources différentes permet d’éviter d’avoir à distinguer lequel des deux prédicateurs est le plus précis. L’agrégation améliore en théorie la précision de la prédiction en diminuant les biais inhérents à leurs sources et aux différentes informations auxquels ils pourraient avoir accès. On aurait une meilleure connaissance des chances de Joe Biden a l’élection en agrégeant les avis de plusieurs personnes informées qu’en se basant sur une seule d’entre elles.

i.

Le contexte de la prédiction d’événements humains (par exemple le résultat des élections américaines, d’un match de foot…) représente un environnement particulier pour agréger des prédictions, car contrairement aux domaines où on applique ces techniques couramment comme les prédictions météorologiques ou les phénomènes naturels:

  • L’échantillon de données est limité: pour prédire les précipitations à Paris, nous avons les données pour chaque jour voire chaque heure depuis des années. Pour prédire le vainqueur d’une élection, nous avons comme seuls antécédents… les élections précédentes.
  • Ces phénomènes sont infiniment complexes: prédire la météo est une tâche d’une grande complication. Cependant, on arrive maintenant à peu près à comprendre les mécanismes en jeu. Pour prédire le résultat du choix d’un président par 330 millions d’habitants, vivant chacun une existence indépendante, les facteurs en jeu sont innombrables. Nous en avons eu la preuve: peu ont prédit l’arrivée au pouvoir de Donald Trump en 2016.
  • Corollaire de ces deux points: on ne peut pas attester de la fiabilité d’une source. Dans l’exemple des précipitations, pour voir si un prédicateur est digne de confiance, rien de plus simple. Il suffit de voir chaque jour si la quantité de pluie qui tombe correspond à la prédiction. Pour un événement comme les élections américaines, il y a peu de précédents, et ils remontent à longtemps. Les performances passées, si elles sont mesurables, seront donc moins à même de préfigurer les performances futures.

Pour toutes ces raisons, il serait intéressant de trouver une méthode qui ne repose ni sur la fiabilité des sources que l’on prend en compte ni des performances passées, les deux étant liés.

Dans la littérature scientifique, la mesure la plus communément utilisée pour évaluer la précision d’un prédicateur est le score de Brier. Dans le cas le plus simple d’une variable binaire (qui n’a que 2 états possibles; exemple: Donald Trump sera-t-il vainqueur de l’élection), on calcule le score de Brier par

Brier Score: Definition, Examples - Statistics How To

en faisant la somme au carré des différences entre probabilités prédites (ft) et résultats (outcome ot, valant 0 ou 1 si l’événement a finalement lieu ou pas) pondérée par l’inverse du nombre de prévisions. Wikhydro donne un bon exemple de calcul du score de Brier:

 Il existe un risque de remontée du Saint-Laurent par des calamars géants si le débit de ce fleuve dépasse 0,3 m3/s. Les calamars géants sont en effet attirés par les odeurs de poutine (un des plats nationaux du Québec). Afin d’éviter un scénario catastrophe dans lequel le poids des journalistes de CNN rassemblés pour couvrir l’événement ferait rompre le pont entre Lévis et Québec, le service de prévision des crues d’Abu Dhabi émet tous les mois une prévision probabiliste du dépassement de ce débit seuil. Le tableau suivant donne les prévisions et les observations en 2086:

Inc295.bmp
Ce qui donne après calcul un score de Brier total de 0.1975

Selon Ranjan et Gneiting (2010), la plupart des modèles actuels d’agrégation de prédictions reposent sur une combinaison linéaire de prédictions individuelles pondérées. On assigne à chaque prédicateur un coefficient qui reflète son importance. On peut par exemple assigner un poids plus important aux prédicateurs qui sont plus précis. Une simple agrégation à coefficient égal (ELP) permet de diminuer le score de Brier d’un ensemble de prédiction (et donc d’améliorer leurs précisions) de deux prédicteurs indépendants p1 et p2 dans le tableau suivant. L’optimisation des coefficients (OLP) n’a qu’un effet minime sur le score de Brier. D’ailleurs, de nombreux auteurs recommandent de ne pas optimiser les poids si ce n’est pas fait en connaissance de cause1 Armstrong (2001), Clemen (1989), and Graefe, Armstrong, Jones, and Cuzán (2014), cités dans Combining multiple probability predictions using a simple logit model, Satopää et Al. (2014)

Beaucoup d’alternatives2 Satopää cite Bordley, 1982 ou Polyakova et
Journel, 2007.
sont proposées à cette méthode qui, selon Allard, Comunian et Renard (2012), est moins efficace que les agrégations multiplicatives; nous allons les étudier au paragraphe suivant.

ii.

Quand on essaie d’agréger des prédictions, deux biais majeurs doivent être pris en compte, des biais qui affectent même les prédictions que l’on fait aussi dans notre vie quotidienne:

Pour corriger ces erreurs systématiques, il est intéressant de faire subir une transformation aux probabilités des prédictions. Le coefficient a représente ici le niveau de biais systématique:

Utiliser a = 1 ne transforme pas les données, mais une valeur a différente de 1 les modifie dans un sens ou l’autre. a>1 est associé a des prédicateurs peu confiants et a<1 a des experts (donc trop confiants).

enter image description here
Transformation de p en fonction de a (source)

Baron et al. (2015) donne la transformation optimale par rapport au score de Brier dans le cadre de leur expérience, en comparant les scores avec transformations aux scores sans transformations (a=1). Ces valeurs nous donnent une idée d’approximation générale de a:

Une autre approche d’agrégation est présente dans l’article « Combining multiple probability predictions using a simple logit model » (Satopää et al., 2014).

La méthode de Satopää et al. (2014) prend en compte les biais détaillés précédemment grâce à une formule que l’on retrouve pour la première fois dans un article datant de 1978. L’agrégateur pour un événement à deux issues possibles est le suivant:

Avec pi la probabilité prédite par le prédicateur i, N le nombre de prédictions, et a le terme de biais systématique. On peut remplacer le terme en 1/N par des poids wi.

Le coefficient a est le même que dans la formule de Baron et al. (2015). Pour éviter le problème que peuvent poser les probabilités 0 et 1, on choisit de remplacer les valeurs p=0 par p=0.01 et p=1 par p=0.994Ariely et al., 2000. Dans les faits, la valeur de a optimale est corrélée avec le niveau d’expertise des prédicateurs:

Cependant, sur l’ensemble des prédicateurs, on retrouve une valeur optimale de a proche de 2. Cela confirme les approximations précédentes de Baron et al. (2015):

Cet agrégateur a de bonnes performances. On remarque que la méthode BELP5présentée dans Allard et al., (2012)6 donne aussi un score de BRIER faible; cependant, elle a tendance à overfitter le set de donnée utilisé par l’étude de Satopää et al. (2014).

On retient donc 3 points de cette étude:

  • Un prédicateur a tendance a sous-estimer les faibles probabilités, surestimer les fortes probabilités et à être sous-confiant vis-à-vis dans son estimation de probabilités.
  • Il existe plusieurs moyens d’agréger des prédictions; celles de Satopää et al. (2014) et Baron et al. (2015) détaillées ici sont plus performante que les combinaisons linéaires généralement utilisées, car elles transforment les probabilités pour corriger ces biais.
  • Lors de l’utilisation de ces 2 formules, on peut approximer la variable a dans l’intervalle [2;2.5].

Laisser un commentaire