Comment votre cerveau reconnaît un visage dans une foule

Nous sommes vers 1996, en fin de soirée, au McGovern Institute du MIT. Nancy Kanwisher est assise devant un poste de travail, en train d'examiner les premières images d'IRM fonctionnelle analysées d'un seul sujet, et Josh McDermott et Marvin Chun se sont serrés à côté d'elle pour observer la surface corticale reconstruite qui brille à l'écran. Sur la face inférieure de l'hémisphère droit, un petit fragment du gyrus fusiforme, d'environ un centimètre carré, s'illumine près de deux fois plus intensément face à des photographies de visages qu'à des photographies d'objets, de mains, de maisons ou de visages brouillés. Le signal est si net qu'il n'a pas besoin d'être moyenné sur de nombreuses personnes pour être visible. Il est là, dans un seul cerveau, sur un seul écran.

L'article allait paraître dans le Journal of Neuroscience l'année suivante sous le titre « The fusiform face area », et ce fragment allait acquérir un nom, la FFA, que le domaine utilise encore trois décennies plus tard. Ce seul point lumineux soulève la question qui fait l'objet de cet article. Parmi tout le monde visuel qui afflue dans vos yeux, comment le cerveau parvient-il à isoler un visage, à le distinguer de tous les autres visages que vous avez jamais vus, et à le faire en une fraction de seconde, dans une foule, sous un mauvais éclairage, sous un angle inhabituel ? La réponse fait intervenir, comme on va le voir, une chaîne de montage précise de régions corticales, un ensemble dédié de détecteurs de visages, et un trouble rare qui révèle à quoi sert l'ensemble du système.

La chaîne de montage visuelle qui construit les objets

Reconnaître quoi que ce soit par la vue commence par une longue chaîne de traitement le long de la base du cerveau, appelée la voie visuelle corticale ventrale. Elle débute au niveau du cortex visuel primaire (V1), tout à l'arrière de la tête, puis avance vers les aires V2 et V4 et finalement vers le cortex inférotemporal, généralement abrégé IT. Chaque station du trajet ajoute une couche de complexité, de sorte que le motif brut de lumière et d'ombre sur la rétine est progressivement transformé en quelque chose qui signifie un visage, une tasse ou un arbre.

V1 traite les ingrédients les plus élémentaires, les bords locaux et les fragments orientés de contraste qui composent toute image. V2 prend ces fragments et construit des contours plus complexes, y compris les contours illusoires (des bords que vous percevez là même où aucun bord n'existe physiquement) et la séparation d'une figure de son arrière-plan. V4 combine le traitement de la forme avec une sélectivité pour la couleur. Lorsque les signaux atteignent le cortex inférotemporal, certains neurones ont de vastes champs récepteurs et répondent à des objets entiers et complexes, souvent avec une forme utile de stabilité appelée invariance, ce qui signifie que le même neurone continue de répondre au même objet même lorsque celui-ci change de position ou de taille. C'est dans IT que le cerveau stocke la sélectivité pour les catégories apprises, et c'est là, au plus profond du lobe temporal, que réside la machinerie des visages.

Cette répartition des tâches n'allait pas de soi. Dans un chapitre devenu un classique en 1982, intitulé « Two cortical visual systems », Mortimer Mishkin et Leslie Ungerleider, qui travaillaient au National Institute of Mental Health, se sont appuyés sur des expériences de lésions sélectives chez le singe pour soutenir que la vision se sépare en deux voies parallèles au-delà de V1. La voie du quoi ventrale, passant par V2, V4 et IT, porte l'identité des objets, ce qu'est une chose. Une voie du où dorsale distincte, passant par V2 et V5/MT jusque dans le cortex pariétal postérieur, porte la localisation spatiale et guide l'action, où se trouve une chose et comment l'atteindre. La reconnaissance des visages relève clairement de la voie du quoi.

Les premiers neurones qui se souciaient des visages

Bien avant que quiconque puisse scanner un cerveau humain vivant, le premier indice que le cortex contenait des spécialistes de catégories vint d'un seul laboratoire et d'un accueil profondément sceptique. Charles Gross, qui travaillait à Princeton à partir de la fin des années 1960, descendit des microélectrodes dans le cortex inférotemporal de macaques et enregistra l'activité de neurones individuels, un à la fois. Certains de ces neurones, découvrit-il, répondaient fortement et spécifiquement à des images de mains et à des images de visages, et à peine du tout aux autres stimuli.

Lorsque les premiers articles parurent au début des années 1970, le domaine n'y crut pas, ou du moins ne sut qu'en faire. L'hypothèse dominante était que le cortex ne contenait pas de neurones accordés à quelque chose d'aussi précis et d'aussi élaboré qu'un visage, et un résultat aussi surprenant éveillait le soupçon qu'il s'agissait d'un artefact. La découverte ne devint canonique que lentement, après que d'autres laboratoires l'eurent répliquée et, surtout, après l'arrivée enfin des outils d'imagerie capables de localiser un équivalent humain. Gross avait eu raison, mais il fallut une génération et une nouvelle technologie pour trancher la question.

Le fragment qui s'est illuminé deux fois plus fort

Cette nouvelle technologie était l'IRM fonctionnelle, et c'est elle qui plaça Kanwisher, McDermott et Chun devant ce poste de travail au milieu des années 1990. Leur article de 1997, « The fusiform face area: a module in human extrastriate cortex specialized for face perception », rapportait l'existence d'un fragment d'environ un centimètre carré sur le gyrus fusiforme inférieur droit, qui répondait environ deux fois plus intensément à des photographies de visages qu'à une grande variété d'images de contrôle. L'effet privilégiait l'hémisphère droit de manière fiable d'une personne à l'autre, et la fusiform face area allait devenir la région sélective d'une catégorie la plus étudiée du cerveau humain.

La FFA n'est pas isolée. À proximité dans la voie ventrale se trouvent d'autres fragments accordés à d'autres classes de choses, notamment la parahippocampal place area, ou PPA, qui répond préférentiellement aux scènes et aux lieux plutôt qu'aux visages. L'image qui se dégagea n'était donc pas celle d'un unique détecteur d'objets polyvalent, mais celle d'un petit archipel de spécialistes, chacun traitant de préférence une catégorie particulière de stimuli, tous portés par la même voie ventrale. Il se trouve simplement que les visages ont l'île la plus proéminente et la mieux caractérisée.

Près d'une décennie plus tard, les découvertes chez le macaque et chez l'humain furent reliées entre elles au niveau de la cellule unique. Doris Tsao et Winrich Freiwald, en collaboration avec Margaret Livingstone à Harvard, utilisèrent d'abord l'IRMf chez des macaques éveillés pour localiser des îlots de visages distincts dans le cortex inférotemporal, puis descendirent des microélectrodes de tungstène dans chaque îlot et enregistrèrent des neurones individuels. Leur rapport de 2006 dans Science révéla quelque chose de frappant : presque chaque neurone qu'ils enregistraient à l'intérieur d'un îlot de visages était sélectif aux visages. C'était la découverte de Gross à grande échelle et organisée, non plus des cellules dispersées mais des amas denses et dédiés. Des travaux ultérieurs des laboratoires de Tsao et Freiwald décrivirent une hiérarchie courant à travers les îlots, les îlots postérieurs représentant les visages d'une manière spécifique à un point de vue, liée à un angle particulier, et les îlots plus antérieurs construisant une représentation de l'identité invariante au point de vue, la même personne reconnue quelle que soit l'orientation de la tête.

Quand le système tombe en panne

L'une des manières les plus puissantes d'apprendre ce que fait une région du cerveau est d'étudier ce qui se passe lorsqu'elle cesse de fonctionner, et pour la reconnaissance des visages, cette signature clinique a un nom et une longue histoire. En 1947, Joachim Bodamer, un neurologue allemand de la clinique neurologique de Tübingen, publia une série de cas portant sur trois patients qui avaient perdu la capacité de reconnaître les visages à la suite de lésions de la région occipitotemporale du cerveau. Il forgea le terme prosopagnosie, du grec prosopon pour visage et agnosia pour non-savoir, un non-savoir des visages.

Ce qui rendait ces cas si importants, c'était leur sélectivité. Les patients pouvaient encore voir parfaitement bien, pouvaient encore reconnaître des objets, pouvaient souvent encore identifier une personne à sa voix, à sa démarche ou à un chapeau distinctif, et pourtant le visage lui-même, comme voie d'accès à l'identité, était tout bonnement indisponible. Un visage familier, même celui d'un conjoint, s'enregistrait comme un visage mais pas comme celui de quelqu'un en particulier. C'était la première preuve clinique que la reconnaissance des visages pouvait défaillir à elle seule pendant que le reste de la vision restait intact, ce qui est exactement ce à quoi on s'attend si le cerveau consacre une machinerie spécialisée aux visages plutôt que de les traiter comme n'importe quel autre objet.

La prosopagnosie se présente sous deux formes. La forme acquise fait suite à des lésions du gyrus fusiforme droit et du cortex occipitotemporal inférieur environnant, généralement après un accident vasculaire cérébral, un traumatisme crânien ou l'ablation chirurgicale de tissu, et elle est relativement rare. La forme développementale est différente : une difficulté de toute une vie à reconnaître les visages chez des personnes qui ont une vision normale, une intelligence normale et aucune lésion cérébrale détectable. Elle est bien plus fréquente que la plupart des gens ne le supposent, avec une prévalence estimée à environ 2 pour cent de la population, ce qui signifie qu'il est probable qu'une de vos connaissances lutte discrètement avec les visages et a simplement appris à compenser. Brad Duchaine et Ken Nakayama systématisèrent les critères diagnostiques de cette forme développementale au cours des années 2000, donnant aux chercheurs un moyen fiable de l'identifier et de l'étudier.

Une carte des étapes qui mènent du visage au nom

Les neurosciences nous indiquent où se trouve la machinerie, mais la psychologie fournit une carte complémentaire des étapes que l'esprit traverse entre le fait de voir un visage et celui de savoir à qui il appartient. L'ossature de référence vient de Vicki Bruce et Andy Young, dont l'article de 1986, « Understanding face recognition », dans le British Journal of Psychology, proposait une séquence d'étapes cognitives qui structure encore le domaine.

Dans leur modèle, la reconnaissance commence par l'encodage structural, qui construit une description du visage que vous regardez indépendante du point de vue, abstraite de l'angle et de l'éclairage particuliers. Cette description est ensuite comparée à des unités de reconnaissance des visages, des gabarits stockés pour chaque visage familier, afin de déterminer si vous avez déjà vu cette personne auparavant. Si une correspondance est trouvée, des nœuds d'identité de la personne relient le visage reconnu à tout ce que vous savez sur cet individu, son métier, l'endroit où vous l'avez rencontré, le fait qu'il vous doit de l'argent. Ce n'est qu'à l'étape finale que la récupération du nom restitue le nom proprement dit. Cette architecture par étapes explique élégamment une expérience quotidienne frustrante, ce moment où vous reconnaissez un visage et vous rappelez exactement qui est quelqu'un sans pourtant parvenir à convoquer son nom. Dans le modèle de Bruce et Young, c'est une défaillance nette à la dernière étape, l'identité retrouvée mais l'étape du nom qui n'arrive pas à se déclencher.

L'aire des visages est-elle conçue pour les visages, ou pour l'expertise ?

Une bonne découverte scientifique engendre un bon débat, et la FFA en a produit un qui dure depuis la parution de l'article de 1997. La question est trompeusement simple. La fusiform face area est-elle véritablement un module dédié aux visages, ou est-ce une région qui est simplement devenue très douée pour les visages parce que les visages sont la chose que nous nous exerçons tous le plus à reconnaître ?

L'explication modulaire, défendue par Kanwisher et ses collègues, soutient que la FFA est un module cortical spécifique aux visages, le produit d'une spécialisation, façonnée par l'évolution ou par l'expérience, pour la classe particulière de stimuli que sont les visages. Selon cette vision, les visages sont spéciaux, et le cerveau les traite comme tels avec un matériel dédié. L'explication concurrente par l'expertise, défendue par Isabel Gauthier et ses collègues à Vanderbilt, propose plutôt que la FFA est spécialisée dans la discrimination fine au sein de toute catégorie que vous avez suffisamment pratiquée pour en devenir expert, distinguer une chose presque identique d'une autre. Les visages, selon cette vision, ne sont que l'expertise universelle, la seule catégorie que tout être humain doté de la vue exerce intensément dès la petite enfance, de sorte que la région paraît sélective aux visages parce que les visages sont le problème de discrimination que tout le monde a maîtrisé. Le débat n'a pas été tranché de manière nette, et la position honnête est que les deux explications saisissent quelque chose de réel à propos d'une région qui, tout à la fois, préfère de façon fiable les visages et est manifestement façonnée par l'expérience. Cette tension authentique et persistante est en soi le signe que la FFA demeure un problème de recherche actif plutôt qu'une affaire close.

À retenir

Reconnaître un visage mobilise la voie du quoi ventrale, une chaîne de traitement qui court du cortex visuel primaire (V1) à travers V2, V4 et jusqu'au cortex inférotemporal, où chaque étape ajoute de la complexité jusqu'à ce que des objets entiers et des catégories apprises soient représentés ; Mishkin et Ungerleider distinguèrent cette voie du quoi d'une voie du où dorsale en 1982. Charles Gross enregistra les premiers neurones sélectifs aux visages dans le cortex inférotemporal du macaque au début des années 1970, dans un climat sceptique, une découverte confirmée lorsque Kanwisher, McDermott et Chun localisèrent la fusiform face area humaine par IRMf en 1997, un fragment de l'hémisphère droit qui s'active environ deux fois plus fort pour les visages que pour les autres images, puis à nouveau lorsque Tsao et Freiwald montrèrent en 2006 que presque chaque neurone à l'intérieur d'un îlot de visages du macaque est sélectif aux visages, avec une hiérarchie allant d'une identité spécifique au point de vue à une identité invariante au point de vue. La prosopagnosie, nommée par Bodamer en 1947 et scindée en une forme acquise rare et une forme développementale touchant environ 2 pour cent des gens, démontre que la reconnaissance des visages peut s'effondrer pendant que le reste de la vision survit, et le modèle de Bruce et Young de 1986 cartographie les étapes cognitives allant de l'encodage structural à la récupération du nom, tandis que le débat non résolu entre l'explication modulaire de Kanwisher et l'explication par l'expertise de Gauthier maintient véritablement ouverte la question de savoir pourquoi cette région existe.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free