Dans une pièce obscure de la Harvard Medical School, en 1958, deux jeunes scientifiques étaient à bout de patience. David Hubel et Torsten Wiesel avaient enfoncé une microélectrode de tungstène dans le cortex visuel primaire d'un chat anesthésié, et pendant des heures ils avaient projeté des points lumineux sur un écran, cherchant à faire décharger le neurone. Le moniteur audio, qui transformait les décharges électriques de la cellule en clics, restait obstinément silencieux. Puis une plaque de verre se coinça dans le projecteur. Alors qu'ils la dégageaient en la secouant, le bord sombre de la plaque balaya l'écran, et le moniteur se mit soudain à produire un crépitement net et rythmé. Le neurone ne se souciait pas le moins du monde des points lumineux. Il se souciait d'un contour en mouvement incliné selon un angle bien précis.
Ce crépitement accidentel est l'un des sons fondateurs de la neuroscience moderne, et, contre toute attente, de l'intelligence artificielle moderne. La ligne qui relie le cortex visuel de ce chat aux classificateurs d'images et aux agents conversationnels des années 2020 est directe et traçable, et en octobre 2024 l'Académie royale des sciences de Suède l'a entérinée en attribuant le prix Nobel de physique à deux pionniers des réseaux de neurones artificiels. Cet article suit cette ligne : comment une découverte sur la façon dont le cerveau perçoit les contours a donné naissance à toute une famille de machines, et quelle est, lorsqu'on l'examine de près, la véritable nature du lien entre les cerveaux et les systèmes qu'ils ont inspirés.
Le cortex du chat et l'architecture de la vision
Entre 1958 et 1965, travaillant à la Harvard Medical School, Hubel et Wiesel cartographièrent les propriétés de réponse des neurones du cortex visuel primaire, la région également connue sous le nom de V1 ou aire 17 de Brodmann. En enregistrant l'activité de chats et de singes anesthésiés, ils découvrirent que chaque neurone était d'une exigence extrême. Certaines cellules, qu'ils appelèrent cellules simples, ne déchargeaient que lorsqu'un contour d'une orientation précise tombait sur un point précis de la rétine ; il suffisait d'incliner le contour ou de le décaler un peu pour que la cellule se taise. D'autres cellules, les cellules complexes, étaient tout aussi sélectives à l'orientation mais bien plus tolérantes quant à la position, répondant à un contour du bon angle n'importe où dans une région donnée.
L'intuition décisive ne tenait pas aux cellules individuelles mais à la relation entre elles. Hubel et Wiesel proposèrent une hiérarchie, dans laquelle les cellules simples, précises et verrouillées sur la position, alimentent les cellules complexes, plus tolérantes, si bien que le système élabore une représentation capable de reconnaître une caractéristique indépendamment de son emplacement exact. La spécificité à la base, l'invariance construite par superposition au-dessus. Pour avoir montré comment le monde visuel est décomposé puis recomposé à travers les étapes du traitement cortical, les deux hommes partagèrent le prix Nobel de physiologie ou médecine 1981 avec Roger Sperry. L'idée que la vision est une hiérarchie en couches de détecteurs de caractéristiques, chaque étage combinant les sorties de l'étage inférieur en quelque chose de plus abstrait et de plus stable, allait se révéler l'une des idées les plus fécondes de l'histoire de l'informatique.
Du cortex au silicium : le Neocognitron
Le premier ingénieur à prendre cette hiérarchie au sérieux comme plan directeur fut Kunihiko Fukushima. Travaillant aux laboratoires de recherche scientifique de la chaîne NHK à Tokyo, il publia un modèle dans la revue Biological Cybernetics en 1980, avec un titre qui annonçait clairement son ambition : « Neocognitron : un modèle de réseau de neurones auto-organisé pour un mécanisme de reconnaissance des formes insensible au déplacement de position. » L'expression « insensible au déplacement de position » n'est autre que Hubel et Wiesel traduits dans le langage des machines, car l'invariance par translation, la capacité à reconnaître une forme où qu'elle apparaisse, était précisément le problème que résolvaient les cellules complexes.
Le Neocognitron copiait le cortex presque couche pour couche. Il alternait ce que Fukushima appelait les couches de cellules S, calquées directement sur les cellules simples de Hubel et Wiesel et accordées aux caractéristiques locales, avec les couches de cellules C, calquées sur les cellules complexes et regroupant l'information sur la position pour accorder une tolérance aux petits déplacements. Empilé en une hiérarchie profonde, le réseau était entraîné à reconnaître des chiffres manuscrits. Il fonctionnait, et démontrait quelque chose de profond : une machine construite sur le schéma de câblage du cerveau pouvait résoudre une véritable tâche perceptive. Ce qui lui manquait, c'était un moyen efficace d'apprendre par elle-même la force de ses connexions à partir de données, la pièce qui arriverait plus tard et changerait tout.
La révolution convolutive : de LeCun à AlexNet
Cette pièce manquante prit forme entre les mains de Yann LeCun. Aux Bell Labs, en 1989, LeCun publia le premier réseau de neurones convolutif utilisable en pratique pour lire des chiffres manuscrits, une conception ensuite affinée et baptisée LeNet-5 en 1998. Le réseau convolutif conservait le squelette d'inspiration cérébrale de Fukushima, l'alternance de couches de détection de caractéristiques et de couches de regroupement, mais l'entraînait par rétropropagation, un algorithme qui ajuste efficacement chaque connexion du réseau en retraçant les erreurs depuis la sortie vers l'arrière. LeNet fut déployé commercialement pour lire les chiffres sur les chèques bancaires, l'un des premiers réseaux de neurones à accomplir un véritable travail économique dans le monde.
Pendant plus de deux décennies, l'approche mijota sans jamais bouillir, limitée par les données et la puissance de calcul disponibles. Puis, en 2012, Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton, de l'université de Toronto, engagèrent un réseau convolutif à huit couches, bientôt universellement connu sous le nom d'AlexNet, dans l'ImageNet Large Scale Visual Recognition Challenge, un concours visant à classer des photographies dans un millier de catégories. AlexNet ne se contenta pas de gagner ; il l'emporta avec une marge si large qu'elle fit honte à toutes les méthodes concurrentes. En l'espace d'environ un an, tout le domaine de la vision par ordinateur abandonna ses anciennes techniques façonnées à la main pour se tourner vers l'apprentissage profond. La filiation était ininterrompue : les détecteurs de caractéristiques en couches d'AlexNet étaient les arrière-petits-enfants des cellules simples et complexes du chat de 1958, démultipliés et entraînés sur un million d'images.
L'autre tradition : Hopfield, l'énergie et la mémoire
La lignée convolutive ne représente que la moitié de l'histoire, et le Nobel 2024 a également honoré l'autre moitié. En 1982, le physicien John Hopfield publia dans les Proceedings of the National Academy of Sciences un article intitulé « Neural networks and physical systems with emergent collective computational abilities ». Hopfield abordait les réseaux de neurones depuis la physique statistique plutôt que la biologie, et introduisit ce que l'on appelle aujourd'hui le réseau de Hopfield, un modèle récurrent dans lequel les connexions définissent un paysage d'énergie. Présentez au réseau un motif corrompu ou partiel, et sa dynamique dévale la pente, comme une bille s'installant au fond d'une vallée, jusqu'à atteindre une mémoire stockée. C'était une théorie mathématique de la mémoire associative, la capacité à reconstituer un tout à partir d'un fragment, comme un bout de mélodie peut faire resurgir une chanson entière.
Le cadre énergétique de Hopfield engendra un programme de recherche que Geoffrey Hinton prolongea à travers la machine de Boltzmann, un réseau probabiliste fondé sur des principes physiques similaires, puis à travers les réseaux de croyances profonds qui contribuèrent à raviver l'intérêt pour les architectures à nombreuses couches au milieu des années 2000. La portée de cette tradition devint remarquablement vaste. Le transformeur, l'architecture publiée par Ashish Vaswani et ses collègues chez Google dans l'article de 2017 « Attention Is All You Need » et qui constitue désormais le moteur au cœur des grands modèles de langage, descend de ce même univers d'associations apprises et de calcul collectif émergent, même si son mécanisme d'auto-attention relève d'une conception à propagation avant plutôt que récurrente. Hopfield apporta la physique de la mémoire, Hinton apporta la machinerie de l'apprentissage, et ensemble ils façonnèrent les deux grandes lignées du domaine.
8 octobre 2024 : la physique revendique le réseau de neurones
Le 8 octobre 2024, l'Académie royale des sciences de Suède attribua conjointement le prix Nobel de physique à John J. Hopfield, professeur émérite de l'université de Princeton, et à Geoffrey E. Hinton, de l'université de Toronto et anciennement de Google, « pour des découvertes et des inventions fondamentales qui rendent possible l'apprentissage automatique à l'aide de réseaux de neurones artificiels ». Un prix de physique pour la science qui sous-tend l'apprentissage automatique surprit de nombreux observateurs, mais ce choix était cohérent en interne : la contribution de Hopfield était enracinée dans la mécanique statistique des systèmes physiques, et la tradition énergétique qu'il avait ouverte décrit un arc limpide passant par la machine de Boltzmann de Hinton, sa défense de la rétropropagation et ses réseaux de croyances profonds, jusqu'à la technologie qui remodèle aujourd'hui la vie quotidienne. Cette récompense fut la reconnaissance, par la discipline, que des abstractions empruntées aux cerveaux et à la physique étaient devenues un accomplissement intellectuel digne de sa plus haute distinction.
Quand les machines se sont mises à prédire le cerveau
Jusqu'ici l'influence ne s'est exercée que dans un sens, de la neuroscience vers l'ingénierie. Mais l'une des évolutions les plus frappantes de la dernière décennie est l'influence qui circule en retour, les réseaux artificiels devenant des outils pour comprendre le cerveau qui les a inspirés. En 2014, Daniel Yamins et James DiCarlo, au MIT, publièrent une étude dans la revue même qui avait accueilli les travaux de Hopfield trois décennies plus tôt. Ils entraînèrent des réseaux convolutifs profonds à la reconnaissance d'objets, puis comparèrent les activations à l'intérieur de ces réseaux entraînés avec de véritables enregistrements de neurones isolés du cortex inférotemporal de macaques, une région visuelle de haut niveau où les objets sont reconnus. Les réseaux prédisaient les fréquences réelles de décharge neuronale mieux qu'aucun modèle antérieur, et, fait révélateur, les couches les plus profondes, les plus pertinentes pour la catégorisation, correspondaient le mieux aux neurones visuels de haut niveau. Un système conçu pour imiter le cerveau avait bouclé la boucle pour en devenir le meilleur modèle.
Une convergence parallèle apparut dans l'étude de la récompense. En 1997, Wolfram Schultz, Peter Dayan et Read Montague publièrent dans Science un article montrant que les neurones dopaminergiques du mésencéphale, situés dans l'aire tegmentale ventrale et la substance noire pars compacta, ne signalent pas simplement le plaisir mais encodent une erreur de prédiction de récompense, l'écart entre la récompense qu'un animal attendait et la récompense qu'il a reçue. Ce signal biologique se révéla ressembler de façon saisissante au signal d'apprentissage par différence temporelle au cœur de la théorie de l'apprentissage par renforcement développée par Richard Sutton et Andrew Barto. Un concept inventé par des informaticiens pour faire apprendre les machines par essais et erreurs se trouvait, presque mot pour mot, inscrit dans la chimie du cerveau. Les mêmes principes alimentèrent plus tard les systèmes d'apprentissage par renforcement profond de DeepMind, du DQN jouant aux jeux Atari en 2013 à AlphaGo en 2016 et AlphaZero en 2017.
Une mise en garde utile : les réseaux ne sont pas des neurones
Malgré toutes ces résonances, ce serait une grave erreur de conclure que les réseaux artificiels d'aujourd'hui sont des modèles réalistes des cerveaux biologiques, et c'est peut-être l'idée fausse la plus lourde de conséquences de toute cette discussion. Les vrais neurones communiquent par des décharges électriques discrètes, et non par les activations lisses et continues d'une unité artificielle. L'apprentissage biologique ne semble pas recourir à la rétropropagation du gradient, et la façon dont le cerveau ajuste réellement ses synapses demeure une question ouverte. Les dendrites d'un seul neurone effectuent des calculs bien plus riches que la simple somme pondérée que calcule une unité artificielle typique. Et l'échelle force à l'humilité : le cortex humain compte de l'ordre de 86 milliards de neurones reliés par environ 100 000 milliards de synapses, enchâssés dans une machinerie cellulaire qu'aucun réseau artificiel actuel ne reproduit. L'emprunt fut une inspiration, non une copie, et la position honnête est que les cerveaux et les machines qu'ils ont fait germer sont des cousins, partageant un ancêtre dans la hiérarchie de Hubel et Wiesel tout en différant profondément par leur biologie.
C'est aussi là que la neuroscience et l'ingénierie convergent le plus directement vers de nouveaux matériels. Un domaine parfois appelé informatique neuromorphique ou inspirée du cerveau construit du silicium qui imite la dynamique neuronale au sein même de la puce, plutôt que de l'émuler sur des processeurs graphiques classiques. Parmi les efforts les plus avancés figurent Loihi d'Intel, TrueNorth d'IBM, le système Neurogrid de Kwabena Boahen à Stanford, et SpiNNaker, la machine à réseau impulsionnel construite sous la direction de Steve Furber à l'université de Manchester. Chacun fait tourner des réseaux de neurones impulsionnels sur silicium avec une très grande efficacité énergétique. Aucun n'a encore supplanté l'apprentissage profond fondé sur les GPU, mais ils marquent la frontière où les principes de conception du cerveau et le matériel d'IA concret se rencontrent le plus directement.
Points clés à retenir
L'histoire de la façon dont le cerveau a inspiré l'IA est une lignée unique et traçable qui commence avec une plaque de projecteur coincée en 1958, lorsque Hubel et Wiesel découvrirent que les neurones du cortex visuel sont des détecteurs de caractéristiques en couches, les cellules simples alimentant des cellules complexes tolérantes à la position, une architecture que Fukushima transposa dans le Neocognitron en 1980, que LeCun rendit entraînable sous la forme du réseau convolutif en 1989, et qui explosa dans l'ère moderne lorsque AlexNet remporta ImageNet en 2012. Une seconde tradition, née de la physique, court du modèle énergétique de la mémoire associative de Hopfield en 1982 jusqu'aux transformeurs derrière les modèles de langage d'aujourd'hui, en passant par les machines de Boltzmann et les réseaux de croyances profonds de Hinton, et ces deux lignées valurent ensemble à Hopfield et Hinton le prix Nobel de physique 2024. L'influence circule désormais dans les deux sens, à mesure que les réseaux profonds prédisent la décharge réelle dans le cortex inférotemporal du macaque et que l'erreur de prédiction de récompense dopaminergique découverte par Schultz, Dayan et Montague reflète presque exactement la théorie de l'apprentissage par renforcement. Pourtant la ressemblance a des limites fermes, car les vrais neurones produisent des décharges, apprennent sans rétropropagation et calculent dans leurs dendrites, entassés au nombre de 86 milliards dans des circuits qu'aucun réseau artificiel ne reproduit, ce qui explique que la description la plus exacte des cerveaux et de l'IA ne soit pas l'identité mais un air de famille profond et fécond.
Learn more with Mindoria
Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.
Download Free