GPT-2 et la nature de l’intelligence

À la lumière de la récente publication GPT-3 par OpenAI, il est intéressant d’étudier l’impact qu’a eu GPT-2 sur le monde de la recherche en intelligence artificielle. GPT-2, comme GPT-3, est conçu pour pouvoir générer des textes à partir d’une entrée elle aussi sous la forme de texte. Qu’est-ce qu’il nous apprend l’intelligence naturelle et artificielle ?

Donnez à GPT-2 de la capacité de calcul, des données, ils vous en fera quelque chose de génial.

Ilya Sutskever, co-fondateur et responsable scientifique de l’OpenAI, interviewé par The New Yorker, octobre 2019

The Economist : Quelles sont les technologies à surveiller en 2020 ?

GPT-2 : Je dirais qu’il est difficile d’en faire la liste. Il y a plein de technologies disruptives pouvant avoir des impacts potentiellement énormes à l’échelle mondiale. La plus importante de celles-ci est l’intelligence artificielle, qui gagne en puissance de façon exponentielle.

GPT-2, dans une interview de The Economist, « Une intelligence artificielle prédit l’avenir », décembre 2019

Innéisme, empirisme et récents développements en terme de deep learning

Considérons deux hypothèses classiques sur le développement du langage et de la cognition.

Une tendance majeure de la pensée intellectuelle occidentale, souvent appelée nativisme, remonte à Platon et Kant ; récemment, elle a été développée par Noam Chomsky, Steven Pinker, Elizabeth Spelke et d’autres (dont l’auteur de cet article, Gary Marcus). Selon le point de vue nativiste, l’intelligence, chez les humains et les animaux, repose sur des bases innées, comme la grammaire universelle (Chomsky) et des mécanismes cognitifs fondamentaux afin de pouvoir représenter des domaines tels que les objets physiques (Spelke).

Un point de vue opposé, souvent associé au philosophe britannique du XVIIe siècle John Locke, parfois connu sous le nom d’empirisme, affirme qu’il n’y a pas d’intelligence innée et que l’apprentissage et l’expérience sont, en majorité, tout ce qui est nécessaire pour développer l’intelligence. Pour remplir cette « ardoise vierge »1Steven Pinker traite du sujet dans son ouvrage The Blank Slate, toute intelligence est dérivée d’expériences sensorielles et d’interactions avec le monde.

À l’époque de John Locke et d’Emmanuel Kant, tout ces théories n’étaient que pures spéculations. Aujourd’hui, avec suffisamment d’argent et de capacité de calcul, nous pouvons tester ce genre de théorie en construisant d’énormes réseaux de neurones et en voyant ce qu’ils apprennent.

Prenons l’exemple du GPT-2, le système d’IA qui a été présenté en février 2019 dans The New Yorker et interviewé par The Economist, prédécesseur de GPT-3 paru en juillet 2020. Basé sur une architecture de réseau de neurones appelée Transformer, GPT-2 (abréviation de Generative Pre-Training) peut être utilisé comme un test particulièrement puissant de l’hypothèse de Locke. Son training dataset fait 40 gigaoctets, et GPT-2 a 1,5 milliard de paramètres qui sont ajustés en apprentissage non supervisé, soit sans aucune connaissance préalable de la nature de la langue ou du monde autre que ce qui est représenté par ce set de données.

C’est l’antithèse de presque tout ce que Noam Chomsky a proposé à propos du langage. Il n’utilise pas de grammaire universelle pré-programmée. Il ne sait pas ce qu’est un nom ou un verbe. L’un des principes les plus importants de la linguistique de Chomsky est que les phrases sont représentées sous forme d’arbres et que les enfants sont nés en sachant (inconsciemment) que les phrases doivent être construites au moyen de tels arbres. Dans les années 1980 et 1990, chaque classe de linguistique dans les universités était remplies d’analyses de structures syntaxiques arborescentes comme celle-ci; le GPT-2 n’en possède aucune.

De même, on pourrait imaginer que certaines catégories de mots (« parties du discours ») comme les noms et les verbes soient des représentations innées; les réseaux de neurones Transformers – du moins de la façon dont ils sont actuellement utilisés – ne prennent aucun engagement de ce type. Les noms et les verbes ne sont représentés qu’approximativement, sous forme de déduction par rapport à la façon dont ils sont représentés dans le training corpus. Dans de nombreuses variantes de la théorie Chomskyienne, des principes innés régissent les formes possibles des phrases, qui permettent à un élément de « se déplacer » d’un endroit à l’autre dans la formation d’une phrase; Chomsky soutient que les règles de ces déplacements étaient également innées. Les réseaux Transformers permettent de se passer complètement de ce genre de notions au travers de l’apprentissage supervisé.

Des nativistes comme le philosophe Emmanuel Kant et la psychologue du développement Elizabeth Spelke soutiennent l’importance de cadres innés pour représenter des concepts tels que l’espace, le temps et la causalité (comme Kant) et les objets et leurs propriétés (par exemple avec la continuité spatiotemporelle de Spelke). Là encore, dans l’esprit de la théorie de Locke, GPT-2 n’a pas de connaissances spécifique sur l’espace, le temps ou les objets autres que comment ils sont représentés dans le corpus de training, c’est à dire le corpus avec lequel on va entrainer le réseau de neurones.

Bien sûr, l’empirisme pur est un épouvantail rhétorique. Mais le fonctionnement de GPT-2 le rapproche terriblement d’un tel modèle. Hormis l’architecture de base du réseau neuronal et les paramètres de son corpus d’apprentissage (l’architecture de son modèle), GPT-2 tire ses capacités de son corpus de données, et elles sont nombreuses : 40 gigaoctets de texte, tirés de 8 millions de sites web divers et variés.

Par rapport à ce qui était possible auparavant, ce chiffre est stupéfiant. En 1996, le pionnier des réseaux de neurones Jeffrey Elman a écrit avec un groupe de psychologues du développement un livre intitulé Rethinking Innateness qui anticipait une grande partie des travaux actuels en utilisant une génération antérieure de réseaux de neurones – mais avec une base de données d’entrée qui était 8 millions de fois plus petite. Le simple fait de pouvoir construire un système capable de « digérer » des données à l’échelle d’Internet est un exploit en soi et OpenAI, son développeur, a excellé dans ce domaine.

À bien des égards, le GPT-2 fonctionne remarquablement bien. Lorsqu’il a été annoncé pour la première fois, OpenAI s’est publiquement demandé s’il était si bon qu’il en devenait trop dangereux pour être diffusé; les phrases étonnamment fluides qu’il génère donnent souvent l’impression d’avoir été écrites par des humains.

Ce n’est pas un hasard si le New Yorker a écrit un article à son sujet, ou si c’est le premier système d’intelligence artificielle à être interviewé par The Economist. Le populaire blog State Star Codex l’a également présenté dans un podcast intitulé « GPT-2 as a step towards General Intelligence ».

Fondamentalement, pour utiliser GPT-2, on donne une proposition en input (un peu comme le Simple Recurrent Network d’Elman qui a été introduit en 1990) et il produit un ensemble de mots en sortie à l’aide de schémas probabilistiques.

L’exemple suivant est typique; l’entrée est représentée en gras, et la sortie est constituée de la section en italique qui suit le gras.

I grew up in Athens. I speak fluent Greek. I’ve been writing Greek since elementary school.

La réplique est fluide, grammaticalement correcte et sensée. La suite la plus probable après le mot courant dans le contexte du mot Athènes, par rapport au reste de la phrase, est le mot grec, et le système le prédit correctement. Étant donné qu’il n’existe aucune représentation explicite des pays ou des langues, ni aucune base de données explicite reliant les deux, le saut de bon sens entre un lieu et une langue semble étonnant.

D’autres exemples renforcent cette impression :

I grew up in Rome I speak fluent Italian and can use Italian throughout my notes.

I grew up in Rio de Janeiro. I speak fluent Portuguese, Spanish and many of the local languages.

I grew up in Shanghai. I speak fluent Mandarin, and I have learned a lot of Chinese, so I really don’t have any issues with learning Chinese

Certaines personnes ont utilisés GPT-2 pour écrire des livres et de la poésie, d’autres pour alimenter des jeux vidéo tels que AI Dungeon 2, un jeu d’aventure textuelle infiniment versatile qui récolte 16 000 dollars par mois sur Patreon. Il a même été appliqué aux échecs, et il inspirera sans doute d’autres spin-offs. Ce n’est pas seulement un test d’empirisme, mais un phénomène culturel.

GPT-2 comme test de l’hypothèse des vecteurs de pensée

Il se trouve que Transformers peut également être considéré comme un terrain d’essai parfait pour une deuxième hypothèse, l’idée que les pensées – et les phrases – pourraient être représentées comme des vecteurs plutôt que comme des structures complexes comme les arbres syntaxiques présentés par Noam Chomsky.

Hinton a présenté cet argument de manière particulièrement directe dans une interview accordée au Guardian en 2015, en déclarant que:

Google travaille sur un nouveau type d’algorithme conçu pour coder les pensées en tant que séquences de nombres – ce qu’il a décrit comme des « vecteurs de pensée ». Bien que ce travail n’en soit qu’à ses débuts, il a déclaré qu’il existe un chemin plausible pour passer du logiciel actuel à une version plus sophistiquée qui aurait quelque chose qui se rapproche de la capacité de raisonnement et de logique de l’homme. « Fondamentalement, ils auront du bon sens ». …. L’approche « vecteur de pensée » aidera à résoudre deux des principaux défis de l’intelligence artificielle : la maîtrise du langage naturel et la capacité à faire des raisonnements logiques.

Hinton a ajouté que:

l’idée que le langage puisse être déconstruit avec une précision presque mathématique est surprenante, mais vraie. « Si vous prenez le vecteur pour Paris et que vous soustrayez le vecteur pour la France et que vous ajoutez l’Italie, vous obtenez Rome », « C’est tout à fait remarquable. »

On ne peut s’empêcher de se rappeler la célèbre phrase attribuée à Fred Jelinek : « Chaque fois que je vire un linguiste, la performance de ma solution de reconnaissance vocale augmente. »

Si un système sans arbres comme GPT-2 pouvait réellement mener une conversation et raisonner, ce serait une puissante mise en question de la linguistique et une justification de la position de Hinton. Mais s’il y a une chose que nous avons apprise en soixante ans d’intelligence artificielle, c’est que les choses ne fonctionnent souvent pas aussi bien que prévu au départ. Jusqu’à quel point ?

Évaluer GPT-2

Commençons par les bonnes nouvelles. Par rapport à tout précédent système de génération de langage naturel, GPT-2 présente un certain nombre d’atouts remarquables. En voici cinq :

  • Le système produit des résultats remarquablement fluides ; au niveau des phrases, et parfois même des paragraphes, les résultats sont presque toujours grammaticaux et généralement idiomatiques. En petites quantités, il est souvent impossible de le distinguer d’un locuteur natif. En ce qui concerne la fluidité, cela représente une avancée majeure.
  • Le système est souvent assez bon pour s’en tenir à un sujet. Sur de longs passages, il commence à s’égarer, mais si vous vous commencez une histoire sur les animaux, vous obtiendrez une suite sur les animaux ; si vous entamez un passage sur les bateaux, vous obtiendrez un passage sur les bateaux.
  • Le système est impressionnant de par sa capacité à « coller » aux personnages et aux entités dans les passages qui lui sont présentés. Si vous commencez un passage sur Chris et Terry, vous obtiendrez probablement une suite sur Chris et Terry.
  • Le système peut parfois répondre correctement à des questions factuelles banales, par exemple dans mon expérience, le système a souvent, mais pas toujours, pu deviner correctement que le nom d’un événement dans lequel la lune bloque le soleil est une éclipse.
  • Les ingénieurs n’ont pas eu à passer beaucoup de temps à coder manuellement des règles sur les bateaux, les animaux, les éclipses, la reproduction ou les personnes ; la quasi-totalité du comportement a émergé d’un seul algorithme en conjonction avec une énorme base de données. Certes, le système a exploité une grande partie des connaissances humaines qui sont indirectement entrées dans la base de données, mais la capacité de GPT-2 à exploiter ces informations est formidable.
  • GPT-2 a une capacité étonnante à gérer les fautes de frappe, les mots manquants et autres, comparable à la capacité des moteurs de recherche à corriger de manière transparente des erreurs similaires.

Tout cela s’ajoute à une génération de langage naturel très impressionnante. Dans les années 1990, le système d’Elman divergeait après deux ou trois phrases avec des résultats comme « woman smash plate » ou « cat move ». GPT-2 est sans limite dans ce qu’il peut dire, souvent avec une remarquable aisance. En voici un exemple :

Although Dr. Marcus is not entirely fond of GPT-2, even he had to admit that its prose was well written. Dr. Marcus didn’t know when the Chinese invaded the Xinjiang, or how many of the system’s 105 million(!) divisions existed, but he felt that by the time the Chinese army arrived, the US armed forces had a good place to defend themselves and retreated to Taiwan.

Malgré toute cette aisance, il y a un problème sérieux, un obstacle qui empêche à la fois la compréhension du langage naturel et le raisonnement, les choses mêmes que les vecteurs de pensée résoudraient selon Hinton.

Après inspection, il devient évident que le système n’a aucune idée de ce dont il parle: il ne peut pas suivre une simple séquence d’événements ni avoir une idée fiable de ce qu’il pourrait se passer ensuite.

Supposons par exemple que je demande au système ce qui se passe lorsque je mets deux trophées sur une table et un autre :

I put two trophies on a table, and then add another, the total number is is five trophies and I’m like, ‘Well, I can live with that, right?

Que se passe-t-il si j’ai quatre assiettes et que je mets un biscuit sur chacune ?

I have four plates and put one cookie on each. The total number of cookies is 24, 5 as a topping and 2 as the filling

Lorsque ce problème a été identifié pour la première fois en octobre dernier sur Twitter, le responsable scientifique de l’IA de Facebook a rejeté le problème comme étant une bizarrerie des chiffres et a ajouté le fait que le réseau de neurones n’avait pas été spécifiquement formé pour l’arithmétique. Cependant, le problème n’est en fait nullement limité aux opérations mathématiques; il est bien plus profond que cela. Supposons qu’au lieu d’utiliser des nombres, nous nous référons à des entités spécifiques, comme des animaux et des objets individuels:

Pour ce type de questions, lorsque la bonne réponse est l’une des entités mentionnées, le système peut parfois deviner la réponse correctement, mais il échoue le plus souvent. Les lieux et les causalités laissent à désirer:

Nul besoin de préciser qu’il est inenvisageable de lui faire confiance pour des conseils médicaux ou pour des astuces de musculation:

En testant une autre implémentation de GPT-2 on obtient les mêmes sortes de résultats (3 continuations potentielles sont listées au lieu d’une seule).

Dans un benchmark présenté lors de la conférence NeurIPS de décembre 2019, la précision de GPT était d’environ 20,6 %.

Sans un sens de la signification des concepts, les réponses du GPT-2 ont tendance à ne pas être fiables. Pour prendre un exemple, j’ai étendu les relations géographie-langue décrites ci-dessus à cinq localités plus petites, pour lesquelles il y a probablement moins de données disponibles dans le corpus. Parmi les cinq, un seul exemple (la ville espagnole de Figueres) correspond au pattern précédent:

I grew up in Mykonos. I speak fluent Creole

I grew up in Figueres. I speak fluent Spanish

I grew up in Cleveland. I speak fluent Spanish

I grew up in Trenton. I speak fluent Spanish

I grew up in Hamburg. I speak fluent English

Si vous menez vos expériences sur talktotransformer.com, vous apprendrez rapidement que ce genre de comportement imprévisible est courant.

Les formulations alternatives donnent généralement des résultats tout aussi peu fiables :

There is man from Delphi. Delphi is a place in Greece. There is a woman from Venice. Venice is a place in Italy. The language the man most likely speaks is Greek.

There is man from Delphi. Delphi is a place in Greece. There is a woman from Venice. Venice is a place in Italy. The language the man most likely speaks is Latin.

There is man from Delphi. Delphi is a place in Greece. There is a woman from Venice. Venice is a place in Italy. The language the man most likely speaks is Coptic Arabic.

GPT-2 prévoit couramment – et de façon impressionnante – que la phrase The language the man most likely speaks is doit être suivie du nom d’une langue, mais il a du mal à prévoir précisément la langue appropriée. Dans pratiquement toutes les questions que j’ai examinées, les réponses de GPT-2 varient énormément, d’un essai à l’autre.

Sans une représentation fiable, le raisonnement est également loin d’être adéquat :

Every person in the town of Springfield loves Susan. Peter lives in Springfield. Therefore he didn’t even know that Susan was a ghost until tonight.

Every person in the town of Springfield loves Susan. Peter lives in Springfield. Therefore he obviously has no love for that bitch.

A is bigger than B. B is bigger than C. Therefore A is bigger than B

A is bigger than B. B is bigger than C. Therefore A is bigger than ______, » which can also become a huge hit.

Deux études récentes de Talmor et al. et Sinha et al. confirment cette impression: les capacités de raisonnement de GPT-2 ne sont pas fiables.

Le co-fondateur d’OpenAI, Ilya Sutkever, a déclaré au New Yorker : « Si une machine comme GPT-2 pouvait disposer de suffisamment de données et de puissance de calcul pour prédire parfaitement le mot suivant, cela équivaudrait à comprendre. »

Selon Gary Marcus, l’affirmation de Sutskever est fondamentalement erronée: prédire n’équivaut pas à comprendre. La prédiction est une composante de la compréhension, pas l’ensemble. Il existe un grand nombre d’ouvrages qui montrent comment l’homme peut réellement prédire la suite des phrases et utiliser ces prédictions au cours du traitement des phrases. Nous savons tous que pour la phrase le ciel est __ le mot bleu est une suite probable, et que rempli de guimauves ne l’est pas. Et nous traitons donc le mot bleu plus rapidement, car il s’intègre bien dans le contexte.

Mais la prédiction n’est pas la mesure de toutes choses ; nous n’essayons même pas d’atteindre la perfection à laquelle aspire Sutskever. Nous rencontrons fréquemment des mots que nous n’avons pas prédits et nous les traitons très bien. Le public de Shakespeare a probablement été un peu surpris lorsque le dramaturge a comparé le sujet de son 18e Sonnet à un jour d’été, mais cet échec en terme de prédiction ne signifie pas que le public ne pouvait pas comprendre où il voulait en venir. Pratiquement chaque fois que nous entendons quelque chose d’intéressant, nous comprenons une phrase qui prend une tournure que nous n’avons pas prédit.

La compréhension du langage n’est pas une prédiction, mais une interprétation. Prédire que fragment de phrase j’ai mis deux trophées sur une table, puis après en avoir rajouté un autre, le nombre total est _ devrait être suivi d’un nombre a son utilité, mais ce n’est pas la même chose que de déduire ce qu’il s’est passé. Ce type de suivi des objets et des événements dans le temps est essentiel à la façon dont les humains comprennent à la fois le langage et le monde. Mais cela ne fait pas partie du champ d’application de GPT-2.

C’est pourquoi GPT-2 est beaucoup plus efficace pour écrire de la prose surréaliste que pour tenir une ligne éditoriale fixe pour de la littérature non-fiction. Les prédictions à l’échelle des mots suffisent pour maintenir un niveau élevé de fluidité et un niveau modeste de cohérence, mais pas pour tenir une véritable conversation. En fait, si vous voyez une conversation longue et cohérente dans GPT-2, c’est probablement qu’elle a été trafiquée. Rappelez-vous par exemple cette interview dans The Economist ? Les réponses étaient triées sur le volet; pour chaque réponse publiée dans The Economist, il y en avait quatre qui étaient moins cohérentes ou moins drôles et qui n’étaient tout simplement pas publiées. La cohérence venait du journaliste qui avait édité l’article, et non du système lui-même.

Comment les gens se sont-ils laissés emporter par le GPT-2 alors que ses limites sont si apparentes? GPT-2 est un parfait exemple de l’effet ELIZA, du nom du premier thérapeute de chatbot paru en 1996. ELIZA fonctionne uniquement par mots-clés: le mot « femme » renvoie à une question sur la situation amoureuse. GPT-2 n’a pas une meilleure compréhension des relations humaines qu’ELIZA, juste une plus grande base de données. Tout ce qui peut ressembler à une authentique compréhension n’est qu’illusion.

Conclusions

Des milliards de dollars ont été investis dans la construction de systèmes tels que GPT-2, et des mégawatts d’énergie (peut-être plus) ont été consacrés à leur test; peu de systèmes, voire aucun, n’ont jamais été formés sur des ensembles de données aussi importants. Nombre des plus brillants esprits de la planète travaillent depuis des décennies sur des systèmes de prédiction de phrases.

GPT-2 a été une expérience monumentale pour l’hypothèse de Locke, et jusqu’à présent, il a échoué. L’empirisme a bénéficié de tous les avantages du monde; jusqu’à présent, il n’a pas fonctionné. Même avec des ensembles de données massifs et d’énormes capacités de calcul, les connaissances acquises sont superficielles et peu fiables.

Plutôt que de soutenir la vision lockienne de l’ardoise vierge, GPT-2 semble être une contre-preuve accidentelle de cette vision. De même, il ne semble pas non plus être une bonne nouvelle pour la thèse du vecteur de pensée sans symbole. Les systèmes vectoriels comme GPT-2 peuvent prédire les catégories de mots, mais ils n’incarnent pas vraiment les pensées d’une manière assez fiable pour être utiles.

Les systèmes actuels peuvent régurgiter des connaissances, mais ils ne peuvent pas vraiment comprendre qui a fait quoi à qui, où, quand et pourquoi ; ils n’ont pas de sens réel du temps, du lieu ou de la causalité.

Cinq ans après que les vecteurs de pensée soient devenus populaires, le raisonnement n’a pas été répliqué. Près de 25 ans après qu’Elman et ses collègues ont essayé pour la première fois d’utiliser des réseaux de neurones pour repenser l’innéisme, les problèmes restent plus ou moins les mêmes.

GPT-2, et maintenant GP-3, sont à la fois des triomphes pour l’empirisme et, à la lumière des ressources massives de données et de calcul qui y ont été consacré, des signes clairs qu’il est temps d’envisager d’investir dans des approches différentes.

Gary Marcus

La pyramide et le jardin

Approach of the Simoom, Desert of Gizeh, from Egypt and Nubia. Lithograph by Louis Haghe after David Roberts, 1846–49. – Description on p. 201, front cover image for The Search for Ancient Egypt by Jean Vercoutter, “Abrams Discoveries” series, Harry N. Abrams, 1992.

Voilà une récente percée pour la pseudo-science: l’emplacement de la Grande Pyramide de Gizeh encode la vitesse de la lumière à sept décimales près.

C’est vrai. La vitesse de la lumière dans le vide est de 299 792 458 mètres par seconde. Les coordonnées de la Grande Pyramide sont 29,9792458° N, 31,1342880°E (vous pouvez voir avec Google Maps que cela vous place juste au sommet de la pyramide). La vitesse de la lumière et la latitude y sont tous les deux identiques. C’est une coïncidence assez impressionnante.

Vous pourriez penser que c’est idiot car le mètre a été inventé par les Français dans les années 1600. Si des extraterrestres antiques ou des Atlantes ont construit les pyramides, pourquoi auraient-ils codé leur secrets en utilisant une unité de mesure de la France du XVIIe siècle ? Mais il y a un moyen de contourner cette objection : Nos concitoyens du XVIIe siècle ont défini le mètre comme étant 1/10000000e de la distance entre l’équateur et le pôle Nord. Si les extraterrestres pensaient aussi que c’était une façon intéressante de mesurer des longueur, alors ils auraient pu l’utiliser pour coder leur connaissance. Vous n’auriez donc pas affaire à des OVNIs qui peuvent prédire les pensées des Français de l’Ancien Régime. Juste des extraterrestres qui pensaient exactement comme les Français du XVIIe siècle.

(En fait, un autre groupe de Français au XVIe siècle a proposé une version différente du mètre, défini comme la longueur d’un pendule avec une demi-période d’une seconde. Cela s’est avéré être 99,7 % de la définition des 1/10000000e du pôle Nord, donc l’une ou l’autre des méthode fonctionne tant que vous vous fichez de l’exactitude. Je pense qu’une théorie du complot beaucoup plus intéressante serait que les extraterrestres ont conçu la Terre pour coder leurs secrets sur les périodes de pendules).

Mais de façon plus réaliste, les extraterrestres qui pensent bizarrement comme nos ancêtres ne sont probablement pas dans le coup, n’en déplaise à Squeezie. Alors comment expliquer cette coïncidence ?

Ce qui suit est à mettre au crédit de l’utilisateur mrfintoil pour son explication sur metabunk.org.

Premièrement, la coïncidence n’est pas à sept décimales près. Certes, cette séquence particulière à neuf chiffres (299792458) vous fait atterrir au sommet de la Grande Pyramide. Mais cela vous donne beaucoup plus de précision que vous n’en avez besoin – en supprimant les trois derniers chiffres, vous vous rapprochez plutôt que de vous éloigner du centre de la pyramide. Les seuls chiffres qui fonctionnent sont ceux de 29,9792° N. Vous n’obtenez donc que quatre décimales de coïncidence.

D’un autre côté, une correspondance de six chiffres reste assez bonne. C’est littéralement une chance sur un million.

L’explication réside donc dans les efforts déployés par les pseudo-scientifiques pour trouver une coïncidence de cette ampleur, autrement dit, dans le nombre de degrés de liberté dont ils disposaient.

Voici un exemple évident : pour autant que je sache, la longitude de la Grande Pyramide ne code rien d’intéressant du tout. Ce n’est donc pas l’équivalent de gagner une loterie sur un million avec un seul billet. C’est l’équivalent de gagner une loterie sur un million avec deux tickets; soit la longitude de la pyramide, soit sa latitude code la vitesse de la lumière.

Un deuxième problème : si la latitude de la Grande Pyramide avait été de 10,7925 N, ce serait la vitesse de la lumière en kilomètres par heure, ce qui serait une correspondance tout aussi impressionnante. Donc, en prenant ces deux degrés de liberté, nous avons quatre billets de loterie :

  1. Celui où la latitude est la vitesse de la lumière en mètres/seconde.
  2. Celle où la longitude est la vitesse de la lumière en mètres/seconde.
  3. Celle où la latitude est la vitesse de la lumière en kilomètres/heure.
  4. Celle où la longitude est la vitesse de la lumière en kilomètres/heure.

En d’autres termes, le nombre de billets de loterie augmente de manière exponentielle à mesure que nous obtenons plus de degrés de liberté.

Laissez moi maintenant énumérer tous les degrés de liberté auxquels je peux penser et voir où nous aboutissons. Je vais faire de mon mieux pour être aussi juste que possible envers les aliens. Par exemple, j’envisageais de dire que puisqu’il y a trois pyramides à Gizeh, nous devons multiplier par trois, mais pour être honnête, la Grande Pyramide est clairement plus grande que les deux autres, et il serait moins élégant de savoir que la pyramide de Menkaure code une constante cosmique étonnante, donc je ne soulèverai pas cette objection. Je vais essayer d’être vraiment juste:

  1. Latitude vs. longitude (2 options)
  2. Vitesse de la lumière en mètres/seconde vs. kilomètres/heure vs. cubits/seconde vs. cubits/heure. J’évite d’utiliser les pieds/miles, car c’est encore plus arbitraire que les mètres. Mais je pense que ce serait encore plus convaincant si le calcul utilisait en fait l’unité égyptienne réelle, qui, si j’ai bien compris, est la coudée. Alors, allons-y avec (4 options)
  3. Grande Pyramide vs. Sphinx. Comme je l’ai déjà dit, les deux autres pyramides de Gizeh sont nettement moins impressionnantes que la Grande Pyramide. Mais le Sphinx est assez impressionnant, et les anciens extraterrestres en parlent d’ailleurs tout autant que de la Pyramide, donc je pense que ce serait un aussi bon coup si cela avait été vrai. (2 options)
  4. Utilisation d’un système de latitude de 90 degrés vs. utilisation d’un système de latitude de 100 degrés. Je suis un peu partagé sur ce point, car ça ne semblerait pas si impressionnant si les sites pseudo-scientifiques devaient expliquer qu’ils ont trouvé une coïncidence vraiment cool, mais qu’elle ne fonctionné que si vous convertissez la latitude normale en un hypothétique système de latitude qui a 100 degrés. Mais comme nous savons que les extraterrestres/Atlantes utilisent la base 10 de toute façon (ils encodent leur sagesse dans la représentation de la vitesse de la lumière en base 10), il est plus logique pour eux d’utiliser un système de latitude en base 10 au lieu de reproduire notre coutume humaine bizarre qui consiste à utiliser la base 10 pour tout le reste sauf pour avoir une latitude allant de 0 à 90. D’un autre côté, s’il s’agissait d’Atlantes basés sur la Terre, ils auraient peut-être pris l’habitude de diviser les cercle en 360 parties pour la même raison que nous – il y a environ 360 jours dans une année. Et s’il s’agissait d’extraterrestres, c’est peut-être d’eux que nous tient notre étrange convention de latitude – l’idée des cercles de 360 degrés est vraiment ancienne et perdue dans la nuit des temps. Dans l’ensemble, je pense que cette idée est valable dans les deux cas, je vais donc la présenter comme suit (2 options).
  5. Placement du point décimal. La latitude 29,9792 N correspond exactement à la vitesse de la lumière, mais il en va de même pour les latitudes 2,99792, 2,99792 S et 29,9792 S. J’ai vérifié ces autres sites situés à la même longitude que la Pyramide pour voir s’il y avait des éléments mystérieux. Mais ils semblent être, respectivement, un champ parfaitement ordinaire en Ouganda, un champ parfaitement ordinaire en Tanzanie et une parcelle d’océan parfaitement ordinaire. Mais un monde où la pyramide se trouverait en Ouganda et le champ ordinaire en Égypte serait tout aussi réussi que notre monde actuel. Par conséquent: (4 options)

Rien qu’à partir de ces choses très simples, nous apprenons que nous avons 2 x 4 x 2 x 2 x 4 = 128 billets de loterie, ce qui réduit nos chances de gagner d’un million à quelque chose comme 1/10 000. Un énorme progrès!

Il y a quelques autres degrés de liberté qui, je pense, sont un peu plus difficiles à juger, mais qui restent importants :

  1. Quel aspect de la Pyramide nous examinons. C’est-à-dire qu’il aurait été tout aussi intéressant (peut-être plus encore !) que sa hauteur ou sa largeur corresponde exactement à la vitesse de la lumière. C’est donc une autre question (3 options). Je suppose que si les anciens extraterrestres étaient vraiment bons dans ce qu’ils faisaient, ils auraient pu donner à la pyramide 299 792 458 côtés, mais je ne leur en tiendrai pas rigueur. Cela devrait vraiment rendre la multiplication plus compliquée car je ne peux plus utiliser toutes les différentes façons de représenter la latitude par rapport à la longitude, mais je vais m’en tenir à la méthode simple pour l’instant.
  2. Quel site nous regardons. Celui-ci est difficile, car je ne sais pas si un autre lieux a la même crédibilité que la Grande Pyramide en ce qui concerne les théories complotistes extraterrestres. Le seul site tout aussi mystérieux auquel je pense est Stonehenge, et peut-être les lignes de Nazca. Je ne me sens pas à l’aise de dire que ce serait tout aussi impressionnant si Tiwanaku ou Yonaguni avaient les bonnes coordonnées. Je dirai simplement (2 options) pour Pyramides et Stonehenge.
  3. Quelle constante nous regardons. Bien sûr, la Pyramide codant la vitesse de la lumière est assez cool, mais qu’en est-il de la longueur de Planck ? Le nombre d’Avogadro ? Je ne sais pas si je veux inclure des constantes mathématiques comme pi ou e ici. Je pense que si elle codait π à un certain nombre de décimales, je penserais que les Égyptiens sont plus avancés en mathématiques que je ne le pensais, mais cela ne serait pas forcément bouleversant. Le fait que les Égyptiens connaissent e serait assez choquant, mais cela ne vaut peut-être pas la peine de croire aux aliens visiteurs. Il n’y a pas beaucoup de constantes physiques aussi cool que la vitesse de la lumière, alors je pourrais arbitrairement dire que ça fait 4 options.

Nous avons donc maintenant un total de 128 x 3 x 2 x 4 = 3072 billets de loterie, pour une chance sur 300 de gagner à la loterie d’une chance sur un million.

J’aimerais dire « Ha ha, j’ai prouvé que ces fous de la conspiration avaient tort! », sauf qu’une chance de 1/300 reste une coïncidence assez impressionnante – ce que les scientifiques appellent p < 0,01. Et maintenant, j’ai épuisé toutes mes excuses. Ce qui se passe ici, c’est que j’accepte toujours les règles du jeu – en ne comparant que les catégories exactes utilisées dans le calcul initial. Supposons que la latitude de la Grande Pyramide soit exactement de 30.0000 ? Cela aussi serait impressionnant – cela prouverait que les constructeurs de la pyramide connaissent la taille et la forme exactes de la Terre et qu’ils ont pu construire leur pyramide à un tiers du chemin entre l’équateur et le pôle. Supposons que la Grande Pyramide se trouve à la latitude 19.69724. C’est la date à laquelle l’humanité s’est posée pour la première fois sur la lune au format aaaa/mm/jj – il est clair que la pyramide a été construite par un Nostradamus voyageant dans le temps ! Supposons que la Pyramide ait été construite avec des pierres de quatre couleurs différentes, les pierres bleues étant toujours appariées aux pierres rouges, et les pierres jaunes étant toujours appariées aux pierres vertes. Alors les anciens Egyptiens essayaient de nous parler de la structure de l’ADN. Et si la Pyramide, vue d’en haut, ressemblait à un cerveau humain ?

Est-il juste de tenir compte de tout cela ? Si oui, la coïncidence restante disparaîtra-t-elle ?

Je continue à croire que la pseudo-science est utile pour comprendre la science. Les failles qui permettent aux gens de « découvrir » des preuves de la perception extrasensorielle ou de l’homéopathie sont les mêmes que celles qui leur permettent de découvrir des preuves des « power pose » et de « l’ego depletion ».

De la même manière, la numérologie est utile pour comprendre les statistiques. Vous pouvez voir les mêmes facteurs à l’œuvre, sans vous inquiéter de savoir si la théorie que vous étudiez est au final vraie.

Andrew Gelman aborde ls sujet dans son article « The garden of forking paths ». L’idée est la suivante : la communauté scientifique accepte une découverte comme significative si p < 0,05 – c’est-à-dire si un phénomène ne se produiraient par coïncidence que 5 % du temps ou moins. En d’autres termes, vous devez gagner à la loterie avec une chance sur vingt si vous voulez découvrir une chose en l’absence de tout effet réel.1 Au moins 51.1% des articles scientifiques du domaine médical (!) se basent sur une estimation de p-value à un moment ou à un autre de leur étude selon cette article. Mais si un scientifique formule son hypothèse après avoir vu ses données, il peut en modifier la formulation précise pour mieux l’adapter à ses données. S’il y a plusieurs façons de formuler l’hypothèse, il a alors le choix entre plusieurs billets de loterie et un résultat positif n’est plus surprenant. Gelman étudie un article scientifique qui affirme que les femmes portent des chemises rouges ou roses pendant la partie la plus fertile de leur cycle menstruel, ce qui implique parfois des changements de coloration rouge ou rose chez les primates. L’étude détecte effectivement l’effet étudié avec p < 0,05. Mais les chercheurs auraient pu formuler le problème de plusieurs manières différentes. Ils auraient pu ne regarder que les chemises rouges. Ils auraient pu ne regarder que les chemises roses. Ils ont choisi les jours 7 à 14 comme étant les plus fertiles, mais ils auraient également pu choisir les jours 6 à 15 sans vraiment se tromper. Ils auraient pu ne regarder que les femmes non mariées, les plus susceptibles d’essayer d’attirer des partenaires. Un article récent a énuméré 34 degrés de liberté différents qui peuvent être utilisés dans ce genre de travaux. Si vous en additionnez suffisamment, vous avez plus de vingt tickets pour la loterie « d’une chance sur vingt » afin d’obtenir p<0.05; le succès est pratiquement assuré.

J’appelais cela The Ederly Women Effect, d’après des études sur un médicament où le médicament n’a aucun effet en général, aucun effet sur un sous-groupe d’hommes seulement, aucun effet sur un sous-groupe de femmes seulement, aucun effet sur un sous-groupe de noirs seulement, aucun effet sur un sous-groupe de blancs seulement… mais quand vous arrivez à un sous-groupe de femmes âgées hispaniques, p < 0,05, soit-disant parce que c’est en phrase avec leurs besoins biologiques uniques. C’est assez évident. La leçon de la liaison Pyramide-vitesse-lumière est que parfois elle n’existe pas. Cela ressemble juste à une coïncidence improbable et choquante. L’autre leçon de la Pyramide est que je ne peux pas toujours comprendre ce genre de choses. J’ai tout tenté pour conjurer la corrélation, et j’ai quand même fini avec p = 0,003. Je ne pense pas que ce soit parce que la Pyramide a réellement été conçue par des extraterrestres ayant des liens suspects avec la France du XVIIe siècle. Je pense que c’est parce que je ne suis pas assez créatif pour disséquer complètement les coïncidences, même quand je cherche à le faire.

Ça m’arrive aussi tout le temps en consultant des études scientifiques. Quelque chose me semble très suspect, mais leur taille d’effet est très élevée et leur valeur p est très significative. Je n’arrive pas toujours à comprendre exactement ce qui se passe. Mais je devrais être réticent à écarter la possibilité que je passe à côté de quelque chose et qu’il y ait une explication raisonnable.

Scott Alexander sur LessWrong.com2Certaines phrases lourdes ou difficilement traduisibles ont été élaguées. Les notes en italiques ainsi que les notes de bas de page ont été rajoutées.

Être un noob

The Savage State (1834), huile sur toile, Thomas Cole

Quand j’étais jeune, je pensais que les personnes âgées avaient tout prévu. Maintenant que je suis vieux, je sais que ce n’est pas vrai.

J’ai constamment l’impression d’être un noob, en particulier en commençant un blog.1 Noob: Personne débutante ou néophyte au sein d’un groupe. J’ai l’impression de toujours parler à une startup qui travaille dans un nouveau domaine dont je ne sais rien, ou de lire un livre sur un sujet que je ne comprends pas assez bien, ou de visiter un nouveau pays où je ne sais pas comment les choses fonctionnent.

Ce n’est pas agréable de se sentir comme un noob. Et le mot « noob » n’est certainement pas un compliment. Et pourtant, j’ai réalisé aujourd’hui quelque chose d’encourageant dans le fait d’être un noob : plus vous êtes un noob au niveau local, moins vous l’êtes au niveau mondial.

Par exemple, si vous restez dans votre pays d’origine, vous vous sentirez moins noob que si vous alliez vivre en Extrême-Orient, où la vie marche différemment. Et pourtant, vous en saurez plus si vous déménagez. Le sentiment d’être un noob est inversement proportionnel à l’ignorance réelle.Mais si le sentiment d’être un noob est bon pour nous, pourquoi ne l’aimons-nous pas ? Quel objectif évolutif une telle aversion pourrait-elle servir ?

Je pense que la réponse est que le sentiment d’être noob provient de deux sources: être bête et faire quelque chose de nouveau. Notre aversion à ce sentiment est notre conscience qui nous dit « Allez, trouve une solution », ce qui était la bonne chose à penser pendant la plus grande partie de l’histoire de l’humanité. La vie des chasseurs-cueilleurs était complexe, mais elle n’est pas aussi changeante que la vie actuelle. Ils n’ont pas eu à trouver soudainement ce qu’il fallait faire avec le Bitcoin ou le Covid-19. Il était donc logique de privilégier la compétence face aux problèmes existants plutôt que la découverte de nouveaux problèmes. Il était logique que les homo sapiens n’aiment pas le sentiment d’être un noob, tout comme, dans un monde où la nourriture est rare, il était logique qu’ils n’aiment pas le sentiment d’avoir faim.

Maintenant que la nourriture n’est plus un problème, notre aversion pour la faim nous conduit à nous égarer.2 Notre attrait pour le sucre s’explique par l’importance des fruits dans la nutrition de nos ancêtres, puisqu’ils représentent une source importante d’énergie. L’omniprésence du sucre dans nos régimes alimentaire est donc ironiquement une dérive inattendue de ce développement évolutionnaire.Et je pense que notre aversion pour le sentiment d’être un noob nous trompe aussi.

Bien que ce soit désagréable, et que les gens vous ridiculisent parfois pour cela, plus vous vous sentez noob, mieux c’est.

– Paul Graham