GPT-2 et la nature de l’intelligence

À la lumière de la récente publication GPT-3 par OpenAI, il est intéressant d’étudier l’impact qu’a eu GPT-2 sur le monde de la recherche en intelligence artificielle. GPT-2, comme GPT-3, est conçu pour pouvoir générer des textes à partir d’une entrée elle aussi sous la forme de texte. Qu’est-ce qu’il nous apprend l’intelligence naturelle et artificielle ?

Donnez à GPT-2 de la capacité de calcul, des données, ils vous en fera quelque chose de génial.

Ilya Sutskever, co-fondateur et responsable scientifique de l’OpenAI, interviewé par The New Yorker, octobre 2019

The Economist : Quelles sont les technologies à surveiller en 2020 ?

GPT-2 : Je dirais qu’il est difficile d’en faire la liste. Il y a plein de technologies disruptives pouvant avoir des impacts potentiellement énormes à l’échelle mondiale. La plus importante de celles-ci est l’intelligence artificielle, qui gagne en puissance de façon exponentielle.

GPT-2, dans une interview de The Economist, « Une intelligence artificielle prédit l’avenir », décembre 2019

Innéisme, empirisme et récents développements en terme de deep learning

Considérons deux hypothèses classiques sur le développement du langage et de la cognition.

Une tendance majeure de la pensée intellectuelle occidentale, souvent appelée nativisme, remonte à Platon et Kant ; récemment, elle a été développée par Noam Chomsky, Steven Pinker, Elizabeth Spelke et d’autres (dont l’auteur de cet article, Gary Marcus). Selon le point de vue nativiste, l’intelligence, chez les humains et les animaux, repose sur des bases innées, comme la grammaire universelle (Chomsky) et des mécanismes cognitifs fondamentaux afin de pouvoir représenter des domaines tels que les objets physiques (Spelke).

Un point de vue opposé, souvent associé au philosophe britannique du XVIIe siècle John Locke, parfois connu sous le nom d’empirisme, affirme qu’il n’y a pas d’intelligence innée et que l’apprentissage et l’expérience sont, en majorité, tout ce qui est nécessaire pour développer l’intelligence. Pour remplir cette « ardoise vierge »1Steven Pinker traite du sujet dans son ouvrage The Blank Slate, toute intelligence est dérivée d’expériences sensorielles et d’interactions avec le monde.

À l’époque de John Locke et d’Emmanuel Kant, tout ces théories n’étaient que pures spéculations. Aujourd’hui, avec suffisamment d’argent et de capacité de calcul, nous pouvons tester ce genre de théorie en construisant d’énormes réseaux de neurones et en voyant ce qu’ils apprennent.

Prenons l’exemple du GPT-2, le système d’IA qui a été présenté en février 2019 dans The New Yorker et interviewé par The Economist, prédécesseur de GPT-3 paru en juillet 2020. Basé sur une architecture de réseau de neurones appelée Transformer, GPT-2 (abréviation de Generative Pre-Training) peut être utilisé comme un test particulièrement puissant de l’hypothèse de Locke. Son training dataset fait 40 gigaoctets, et GPT-2 a 1,5 milliard de paramètres qui sont ajustés en apprentissage non supervisé, soit sans aucune connaissance préalable de la nature de la langue ou du monde autre que ce qui est représenté par ce set de données.

C’est l’antithèse de presque tout ce que Noam Chomsky a proposé à propos du langage. Il n’utilise pas de grammaire universelle pré-programmée. Il ne sait pas ce qu’est un nom ou un verbe. L’un des principes les plus importants de la linguistique de Chomsky est que les phrases sont représentées sous forme d’arbres et que les enfants sont nés en sachant (inconsciemment) que les phrases doivent être construites au moyen de tels arbres. Dans les années 1980 et 1990, chaque classe de linguistique dans les universités était remplies d’analyses de structures syntaxiques arborescentes comme celle-ci; le GPT-2 n’en possède aucune.

De même, on pourrait imaginer que certaines catégories de mots (« parties du discours ») comme les noms et les verbes soient des représentations innées; les réseaux de neurones Transformers – du moins de la façon dont ils sont actuellement utilisés – ne prennent aucun engagement de ce type. Les noms et les verbes ne sont représentés qu’approximativement, sous forme de déduction par rapport à la façon dont ils sont représentés dans le training corpus. Dans de nombreuses variantes de la théorie Chomskyienne, des principes innés régissent les formes possibles des phrases, qui permettent à un élément de « se déplacer » d’un endroit à l’autre dans la formation d’une phrase; Chomsky soutient que les règles de ces déplacements étaient également innées. Les réseaux Transformers permettent de se passer complètement de ce genre de notions au travers de l’apprentissage supervisé.

Des nativistes comme le philosophe Emmanuel Kant et la psychologue du développement Elizabeth Spelke soutiennent l’importance de cadres innés pour représenter des concepts tels que l’espace, le temps et la causalité (comme Kant) et les objets et leurs propriétés (par exemple avec la continuité spatiotemporelle de Spelke). Là encore, dans l’esprit de la théorie de Locke, GPT-2 n’a pas de connaissances spécifique sur l’espace, le temps ou les objets autres que comment ils sont représentés dans le corpus de training, c’est à dire le corpus avec lequel on va entrainer le réseau de neurones.

Bien sûr, l’empirisme pur est un épouvantail rhétorique. Mais le fonctionnement de GPT-2 le rapproche terriblement d’un tel modèle. Hormis l’architecture de base du réseau neuronal et les paramètres de son corpus d’apprentissage (l’architecture de son modèle), GPT-2 tire ses capacités de son corpus de données, et elles sont nombreuses : 40 gigaoctets de texte, tirés de 8 millions de sites web divers et variés.

Par rapport à ce qui était possible auparavant, ce chiffre est stupéfiant. En 1996, le pionnier des réseaux de neurones Jeffrey Elman a écrit avec un groupe de psychologues du développement un livre intitulé Rethinking Innateness qui anticipait une grande partie des travaux actuels en utilisant une génération antérieure de réseaux de neurones – mais avec une base de données d’entrée qui était 8 millions de fois plus petite. Le simple fait de pouvoir construire un système capable de « digérer » des données à l’échelle d’Internet est un exploit en soi et OpenAI, son développeur, a excellé dans ce domaine.

À bien des égards, le GPT-2 fonctionne remarquablement bien. Lorsqu’il a été annoncé pour la première fois, OpenAI s’est publiquement demandé s’il était si bon qu’il en devenait trop dangereux pour être diffusé; les phrases étonnamment fluides qu’il génère donnent souvent l’impression d’avoir été écrites par des humains.

Ce n’est pas un hasard si le New Yorker a écrit un article à son sujet, ou si c’est le premier système d’intelligence artificielle à être interviewé par The Economist. Le populaire blog State Star Codex l’a également présenté dans un podcast intitulé « GPT-2 as a step towards General Intelligence ».

Fondamentalement, pour utiliser GPT-2, on donne une proposition en input (un peu comme le Simple Recurrent Network d’Elman qui a été introduit en 1990) et il produit un ensemble de mots en sortie à l’aide de schémas probabilistiques.

L’exemple suivant est typique; l’entrée est représentée en gras, et la sortie est constituée de la section en italique qui suit le gras.

I grew up in Athens. I speak fluent Greek. I’ve been writing Greek since elementary school.

La réplique est fluide, grammaticalement correcte et sensée. La suite la plus probable après le mot courant dans le contexte du mot Athènes, par rapport au reste de la phrase, est le mot grec, et le système le prédit correctement. Étant donné qu’il n’existe aucune représentation explicite des pays ou des langues, ni aucune base de données explicite reliant les deux, le saut de bon sens entre un lieu et une langue semble étonnant.

D’autres exemples renforcent cette impression :

I grew up in Rome I speak fluent Italian and can use Italian throughout my notes.

I grew up in Rio de Janeiro. I speak fluent Portuguese, Spanish and many of the local languages.

I grew up in Shanghai. I speak fluent Mandarin, and I have learned a lot of Chinese, so I really don’t have any issues with learning Chinese

Certaines personnes ont utilisés GPT-2 pour écrire des livres et de la poésie, d’autres pour alimenter des jeux vidéo tels que AI Dungeon 2, un jeu d’aventure textuelle infiniment versatile qui récolte 16 000 dollars par mois sur Patreon. Il a même été appliqué aux échecs, et il inspirera sans doute d’autres spin-offs. Ce n’est pas seulement un test d’empirisme, mais un phénomène culturel.

GPT-2 comme test de l’hypothèse des vecteurs de pensée

Il se trouve que Transformers peut également être considéré comme un terrain d’essai parfait pour une deuxième hypothèse, l’idée que les pensées – et les phrases – pourraient être représentées comme des vecteurs plutôt que comme des structures complexes comme les arbres syntaxiques présentés par Noam Chomsky.

Hinton a présenté cet argument de manière particulièrement directe dans une interview accordée au Guardian en 2015, en déclarant que:

Google travaille sur un nouveau type d’algorithme conçu pour coder les pensées en tant que séquences de nombres – ce qu’il a décrit comme des « vecteurs de pensée ». Bien que ce travail n’en soit qu’à ses débuts, il a déclaré qu’il existe un chemin plausible pour passer du logiciel actuel à une version plus sophistiquée qui aurait quelque chose qui se rapproche de la capacité de raisonnement et de logique de l’homme. « Fondamentalement, ils auront du bon sens ». …. L’approche « vecteur de pensée » aidera à résoudre deux des principaux défis de l’intelligence artificielle : la maîtrise du langage naturel et la capacité à faire des raisonnements logiques.

Hinton a ajouté que:

l’idée que le langage puisse être déconstruit avec une précision presque mathématique est surprenante, mais vraie. « Si vous prenez le vecteur pour Paris et que vous soustrayez le vecteur pour la France et que vous ajoutez l’Italie, vous obtenez Rome », « C’est tout à fait remarquable. »

On ne peut s’empêcher de se rappeler la célèbre phrase attribuée à Fred Jelinek : « Chaque fois que je vire un linguiste, la performance de ma solution de reconnaissance vocale augmente. »

Si un système sans arbres comme GPT-2 pouvait réellement mener une conversation et raisonner, ce serait une puissante mise en question de la linguistique et une justification de la position de Hinton. Mais s’il y a une chose que nous avons apprise en soixante ans d’intelligence artificielle, c’est que les choses ne fonctionnent souvent pas aussi bien que prévu au départ. Jusqu’à quel point ?

Évaluer GPT-2

Commençons par les bonnes nouvelles. Par rapport à tout précédent système de génération de langage naturel, GPT-2 présente un certain nombre d’atouts remarquables. En voici cinq :

  • Le système produit des résultats remarquablement fluides ; au niveau des phrases, et parfois même des paragraphes, les résultats sont presque toujours grammaticaux et généralement idiomatiques. En petites quantités, il est souvent impossible de le distinguer d’un locuteur natif. En ce qui concerne la fluidité, cela représente une avancée majeure.
  • Le système est souvent assez bon pour s’en tenir à un sujet. Sur de longs passages, il commence à s’égarer, mais si vous vous commencez une histoire sur les animaux, vous obtiendrez une suite sur les animaux ; si vous entamez un passage sur les bateaux, vous obtiendrez un passage sur les bateaux.
  • Le système est impressionnant de par sa capacité à « coller » aux personnages et aux entités dans les passages qui lui sont présentés. Si vous commencez un passage sur Chris et Terry, vous obtiendrez probablement une suite sur Chris et Terry.
  • Le système peut parfois répondre correctement à des questions factuelles banales, par exemple dans mon expérience, le système a souvent, mais pas toujours, pu deviner correctement que le nom d’un événement dans lequel la lune bloque le soleil est une éclipse.
  • Les ingénieurs n’ont pas eu à passer beaucoup de temps à coder manuellement des règles sur les bateaux, les animaux, les éclipses, la reproduction ou les personnes ; la quasi-totalité du comportement a émergé d’un seul algorithme en conjonction avec une énorme base de données. Certes, le système a exploité une grande partie des connaissances humaines qui sont indirectement entrées dans la base de données, mais la capacité de GPT-2 à exploiter ces informations est formidable.
  • GPT-2 a une capacité étonnante à gérer les fautes de frappe, les mots manquants et autres, comparable à la capacité des moteurs de recherche à corriger de manière transparente des erreurs similaires.

Tout cela s’ajoute à une génération de langage naturel très impressionnante. Dans les années 1990, le système d’Elman divergeait après deux ou trois phrases avec des résultats comme « woman smash plate » ou « cat move ». GPT-2 est sans limite dans ce qu’il peut dire, souvent avec une remarquable aisance. En voici un exemple :

Although Dr. Marcus is not entirely fond of GPT-2, even he had to admit that its prose was well written. Dr. Marcus didn’t know when the Chinese invaded the Xinjiang, or how many of the system’s 105 million(!) divisions existed, but he felt that by the time the Chinese army arrived, the US armed forces had a good place to defend themselves and retreated to Taiwan.

Malgré toute cette aisance, il y a un problème sérieux, un obstacle qui empêche à la fois la compréhension du langage naturel et le raisonnement, les choses mêmes que les vecteurs de pensée résoudraient selon Hinton.

Après inspection, il devient évident que le système n’a aucune idée de ce dont il parle: il ne peut pas suivre une simple séquence d’événements ni avoir une idée fiable de ce qu’il pourrait se passer ensuite.

Supposons par exemple que je demande au système ce qui se passe lorsque je mets deux trophées sur une table et un autre :

I put two trophies on a table, and then add another, the total number is is five trophies and I’m like, ‘Well, I can live with that, right?

Que se passe-t-il si j’ai quatre assiettes et que je mets un biscuit sur chacune ?

I have four plates and put one cookie on each. The total number of cookies is 24, 5 as a topping and 2 as the filling

Lorsque ce problème a été identifié pour la première fois en octobre dernier sur Twitter, le responsable scientifique de l’IA de Facebook a rejeté le problème comme étant une bizarrerie des chiffres et a ajouté le fait que le réseau de neurones n’avait pas été spécifiquement formé pour l’arithmétique. Cependant, le problème n’est en fait nullement limité aux opérations mathématiques; il est bien plus profond que cela. Supposons qu’au lieu d’utiliser des nombres, nous nous référons à des entités spécifiques, comme des animaux et des objets individuels:

Pour ce type de questions, lorsque la bonne réponse est l’une des entités mentionnées, le système peut parfois deviner la réponse correctement, mais il échoue le plus souvent. Les lieux et les causalités laissent à désirer:

Nul besoin de préciser qu’il est inenvisageable de lui faire confiance pour des conseils médicaux ou pour des astuces de musculation:

En testant une autre implémentation de GPT-2 on obtient les mêmes sortes de résultats (3 continuations potentielles sont listées au lieu d’une seule).

Dans un benchmark présenté lors de la conférence NeurIPS de décembre 2019, la précision de GPT était d’environ 20,6 %.

Sans un sens de la signification des concepts, les réponses du GPT-2 ont tendance à ne pas être fiables. Pour prendre un exemple, j’ai étendu les relations géographie-langue décrites ci-dessus à cinq localités plus petites, pour lesquelles il y a probablement moins de données disponibles dans le corpus. Parmi les cinq, un seul exemple (la ville espagnole de Figueres) correspond au pattern précédent:

I grew up in Mykonos. I speak fluent Creole

I grew up in Figueres. I speak fluent Spanish

I grew up in Cleveland. I speak fluent Spanish

I grew up in Trenton. I speak fluent Spanish

I grew up in Hamburg. I speak fluent English

Si vous menez vos expériences sur talktotransformer.com, vous apprendrez rapidement que ce genre de comportement imprévisible est courant.

Les formulations alternatives donnent généralement des résultats tout aussi peu fiables :

There is man from Delphi. Delphi is a place in Greece. There is a woman from Venice. Venice is a place in Italy. The language the man most likely speaks is Greek.

There is man from Delphi. Delphi is a place in Greece. There is a woman from Venice. Venice is a place in Italy. The language the man most likely speaks is Latin.

There is man from Delphi. Delphi is a place in Greece. There is a woman from Venice. Venice is a place in Italy. The language the man most likely speaks is Coptic Arabic.

GPT-2 prévoit couramment – et de façon impressionnante – que la phrase The language the man most likely speaks is doit être suivie du nom d’une langue, mais il a du mal à prévoir précisément la langue appropriée. Dans pratiquement toutes les questions que j’ai examinées, les réponses de GPT-2 varient énormément, d’un essai à l’autre.

Sans une représentation fiable, le raisonnement est également loin d’être adéquat :

Every person in the town of Springfield loves Susan. Peter lives in Springfield. Therefore he didn’t even know that Susan was a ghost until tonight.

Every person in the town of Springfield loves Susan. Peter lives in Springfield. Therefore he obviously has no love for that bitch.

A is bigger than B. B is bigger than C. Therefore A is bigger than B

A is bigger than B. B is bigger than C. Therefore A is bigger than ______, » which can also become a huge hit.

Deux études récentes de Talmor et al. et Sinha et al. confirment cette impression: les capacités de raisonnement de GPT-2 ne sont pas fiables.

Le co-fondateur d’OpenAI, Ilya Sutkever, a déclaré au New Yorker : « Si une machine comme GPT-2 pouvait disposer de suffisamment de données et de puissance de calcul pour prédire parfaitement le mot suivant, cela équivaudrait à comprendre. »

Selon Gary Marcus, l’affirmation de Sutskever est fondamentalement erronée: prédire n’équivaut pas à comprendre. La prédiction est une composante de la compréhension, pas l’ensemble. Il existe un grand nombre d’ouvrages qui montrent comment l’homme peut réellement prédire la suite des phrases et utiliser ces prédictions au cours du traitement des phrases. Nous savons tous que pour la phrase le ciel est __ le mot bleu est une suite probable, et que rempli de guimauves ne l’est pas. Et nous traitons donc le mot bleu plus rapidement, car il s’intègre bien dans le contexte.

Mais la prédiction n’est pas la mesure de toutes choses ; nous n’essayons même pas d’atteindre la perfection à laquelle aspire Sutskever. Nous rencontrons fréquemment des mots que nous n’avons pas prédits et nous les traitons très bien. Le public de Shakespeare a probablement été un peu surpris lorsque le dramaturge a comparé le sujet de son 18e Sonnet à un jour d’été, mais cet échec en terme de prédiction ne signifie pas que le public ne pouvait pas comprendre où il voulait en venir. Pratiquement chaque fois que nous entendons quelque chose d’intéressant, nous comprenons une phrase qui prend une tournure que nous n’avons pas prédit.

La compréhension du langage n’est pas une prédiction, mais une interprétation. Prédire que fragment de phrase j’ai mis deux trophées sur une table, puis après en avoir rajouté un autre, le nombre total est _ devrait être suivi d’un nombre a son utilité, mais ce n’est pas la même chose que de déduire ce qu’il s’est passé. Ce type de suivi des objets et des événements dans le temps est essentiel à la façon dont les humains comprennent à la fois le langage et le monde. Mais cela ne fait pas partie du champ d’application de GPT-2.

C’est pourquoi GPT-2 est beaucoup plus efficace pour écrire de la prose surréaliste que pour tenir une ligne éditoriale fixe pour de la littérature non-fiction. Les prédictions à l’échelle des mots suffisent pour maintenir un niveau élevé de fluidité et un niveau modeste de cohérence, mais pas pour tenir une véritable conversation. En fait, si vous voyez une conversation longue et cohérente dans GPT-2, c’est probablement qu’elle a été trafiquée. Rappelez-vous par exemple cette interview dans The Economist ? Les réponses étaient triées sur le volet; pour chaque réponse publiée dans The Economist, il y en avait quatre qui étaient moins cohérentes ou moins drôles et qui n’étaient tout simplement pas publiées. La cohérence venait du journaliste qui avait édité l’article, et non du système lui-même.

Comment les gens se sont-ils laissés emporter par le GPT-2 alors que ses limites sont si apparentes? GPT-2 est un parfait exemple de l’effet ELIZA, du nom du premier thérapeute de chatbot paru en 1996. ELIZA fonctionne uniquement par mots-clés: le mot « femme » renvoie à une question sur la situation amoureuse. GPT-2 n’a pas une meilleure compréhension des relations humaines qu’ELIZA, juste une plus grande base de données. Tout ce qui peut ressembler à une authentique compréhension n’est qu’illusion.

Conclusions

Des milliards de dollars ont été investis dans la construction de systèmes tels que GPT-2, et des mégawatts d’énergie (peut-être plus) ont été consacrés à leur test; peu de systèmes, voire aucun, n’ont jamais été formés sur des ensembles de données aussi importants. Nombre des plus brillants esprits de la planète travaillent depuis des décennies sur des systèmes de prédiction de phrases.

GPT-2 a été une expérience monumentale pour l’hypothèse de Locke, et jusqu’à présent, il a échoué. L’empirisme a bénéficié de tous les avantages du monde; jusqu’à présent, il n’a pas fonctionné. Même avec des ensembles de données massifs et d’énormes capacités de calcul, les connaissances acquises sont superficielles et peu fiables.

Plutôt que de soutenir la vision lockienne de l’ardoise vierge, GPT-2 semble être une contre-preuve accidentelle de cette vision. De même, il ne semble pas non plus être une bonne nouvelle pour la thèse du vecteur de pensée sans symbole. Les systèmes vectoriels comme GPT-2 peuvent prédire les catégories de mots, mais ils n’incarnent pas vraiment les pensées d’une manière assez fiable pour être utiles.

Les systèmes actuels peuvent régurgiter des connaissances, mais ils ne peuvent pas vraiment comprendre qui a fait quoi à qui, où, quand et pourquoi ; ils n’ont pas de sens réel du temps, du lieu ou de la causalité.

Cinq ans après que les vecteurs de pensée soient devenus populaires, le raisonnement n’a pas été répliqué. Près de 25 ans après qu’Elman et ses collègues ont essayé pour la première fois d’utiliser des réseaux de neurones pour repenser l’innéisme, les problèmes restent plus ou moins les mêmes.

GPT-2, et maintenant GP-3, sont à la fois des triomphes pour l’empirisme et, à la lumière des ressources massives de données et de calcul qui y ont été consacré, des signes clairs qu’il est temps d’envisager d’investir dans des approches différentes.

Gary Marcus

Laisser un commentaire