Wie dein Gehirn ein Gesicht in der Menge erkennt

Es ist um das Jahr 1996, später Abend, im McGovern Institute des MIT. Nancy Kanwisher sitzt an einem Arbeitsplatz und sieht die ersten ausgewerteten funktionellen MRT-Aufnahmen einer einzelnen Versuchsperson durch, und Josh McDermott und Marvin Chun drängen sich neben ihr, um die gerenderte kortikale Oberfläche zu betrachten, die auf dem Bildschirm leuchtet. Auf der Unterseite der rechten Hemisphäre leuchtet ein kleines Stück des Gyrus fusiformis, ungefähr ein Quadratzentimeter groß, etwa doppelt so stark bei Fotografien von Gesichtern auf wie bei Fotografien von Objekten, Händen, Häusern und verwürfelten Gesichtern. Das Signal ist so sauber, dass es nicht über viele Personen hinweg gemittelt werden muss, um es zu sehen. Es ist genau da, in einem Gehirn, auf einem Bildschirm.

Die Arbeit erschien im darauffolgenden Jahr im Journal of Neuroscience unter dem Titel „The fusiform face area", und das Areal erhielt einen Namen, die FFA, den die Disziplin drei Jahrzehnte später noch immer verwendet. Dieser eine helle Fleck wirft genau die Frage auf, um die es in diesem Artikel geht. Wie pflückt das Gehirn aus der gesamten visuellen Welt, die in deine Augen strömt, ein Gesicht heraus, unterscheidet es von jedem anderen Gesicht, das du je gesehen hast, und tut das in Bruchteilen einer Sekunde, in einer Menschenmenge, bei schlechtem Licht, aus einem ungewöhnlichen Winkel? Die Antwort umfasst, wie sich herausstellt, eine spezifische Fertigungsstraße aus kortikalen Regionen, eine eigens dafür bestimmte Gruppe von Gesichtsdetektoren und eine seltene Störung, die offenbart, wofür das ganze System da ist.

Das visuelle Fließband, das Objekte aufbaut

Etwas mit dem Auge zu erkennen, beginnt mit einer langen Verarbeitungskette entlang der Unterseite des Gehirns, dem ventralen kortikalen Sehpfad. Sie beginnt am primären visuellen Kortex (V1) ganz hinten am Hinterkopf, verläuft dann nach vorn durch die Areale V2 und V4 und schließlich in den inferotemporalen Kortex, üblicherweise mit IT abgekürzt. Jede Station auf dem Weg fügt eine Schicht an Komplexität hinzu, sodass das rohe Muster aus Hell und Dunkel auf der Netzhaut allmählich in etwas verwandelt wird, das ein Gesicht, eine Tasse oder einen Baum bedeutet.

V1 befasst sich mit den grundlegendsten Bestandteilen, den lokalen Kanten und ausgerichteten Kontrastflächen, aus denen jedes Bild besteht. V2 nimmt diese Fragmente und baut daraus kompliziertere Konturen, darunter illusorische Konturen (Kanten, die du wahrnimmst, auch wo physisch keine Kante existiert) und die Trennung einer Figur von ihrem Hintergrund. V4 verbindet die Formverarbeitung mit einer Selektivität für Farbe. Wenn die Signale den inferotemporalen Kortex erreichen, haben einzelne Neuronen große rezeptive Felder und reagieren auf ganze komplexe Objekte, oft mit einer nützlichen Form von Stabilität namens Invarianz, was bedeutet, dass dasselbe Neuron weiterhin auf dasselbe Objekt reagiert, selbst wenn dieses seine Position verschiebt oder seine Größe ändert. Im IT speichert das Gehirn die Selektivität für erlernte Kategorien, und hier, tief im Schläfenlappen, sitzt die Maschinerie für Gesichter.

Diese Arbeitsteilung war nicht offensichtlich. In einem heute klassischen Kapitel von 1982 mit dem Titel „Two cortical visual systems" stützten sich Mortimer Mishkin und Leslie Ungerleider, die am National Institute of Mental Health arbeiteten, auf Experimente mit selektiven Läsionen bei Affen, um zu argumentieren, dass sich das Sehen jenseits von V1 in zwei parallele Ströme aufteilt. Der ventrale Was-Strom, der durch V2, V4 und IT verläuft, trägt die Objektidentität, also was ein Ding ist. Ein getrennter dorsaler Wo-Strom, der durch V2 und V5/MT bis hinauf in den posterioren parietalen Kortex verläuft, trägt die räumliche Lage und steuert das Handeln, also wo ein Ding ist und wie man danach greift. Die Gesichtserkennung ist eindeutig eine Aufgabe für den Was-Strom.

Die ersten Neuronen, denen Gesichter wichtig waren

Lange bevor irgendjemand ein lebendes menschliches Gehirn scannen konnte, kam der erste Hinweis darauf, dass der Kortex Kategorie-Spezialisten enthält, aus einem einzigen Labor und stieß auf tiefe Skepsis. Charles Gross, der ab Ende der 1960er Jahre in Princeton arbeitete, senkte Mikroelektroden in den inferotemporalen Kortex von Makaken und leitete einzelne Neuronen nacheinander ab. Einige dieser Neuronen, so fand er, reagierten stark und spezifisch auf Bilder von Händen und auf Bilder von Gesichtern und kaum auf andere Reize.

Als die ersten Arbeiten Anfang der 1970er Jahre erschienen, glaubte die Disziplin ihnen nicht, oder wusste zumindest nicht, was sie davon halten sollte. Die vorherrschende Annahme war, dass der Kortex keine Neuronen enthält, die auf etwas so Spezifisches und Hochrangiges wie ein Gesicht abgestimmt sind, und ein so überraschendes Ergebnis nährte den Verdacht, es handle sich um ein Artefakt. Der Befund wurde nur langsam kanonisch, nachdem andere Labore ihn reproduziert hatten und, entscheidend, nachdem endlich die Bildgebungswerkzeuge eintrafen, mit denen sich ein menschliches Äquivalent lokalisieren ließ. Gross hatte recht gehabt, aber es brauchte eine Generation und eine neue Technologie, um die Sache zu klären.

Das Areal, das doppelt so hell aufleuchtete

Diese neue Technologie war die funktionelle MRT, und sie setzte Kanwisher, McDermott und Chun Mitte der 1990er Jahre an jenen Arbeitsplatz. Ihre Arbeit von 1997, „The fusiform face area: a module in human extrastriate cortex specialized for face perception", berichtete von einem etwa einen Quadratzentimeter großen Areal am rechten unteren Gyrus fusiformis, das auf Fotografien von Gesichtern etwa doppelt so stark reagierte wie auf eine breite Vielfalt von Kontrollbildern. Der Effekt bevorzugte zuverlässig von Person zu Person die rechte Hemisphäre, und die fusiforme Gesichtsregion wurde in der Folge zur am meisten untersuchten kategorienselektiven Region im menschlichen Gehirn.

Die FFA steht nicht allein da. In ihrer Nähe im ventralen Strom liegen weitere Areale, die auf andere Klassen von Dingen abgestimmt sind, allen voran die parahippocampale Ortsregion, oder PPA, die bevorzugt auf Szenen und Orte statt auf Gesichter reagiert. Das Bild, das sich abzeichnete, war also nicht ein einziger Allzweck-Objekterkenner, sondern ein kleiner Archipel von Spezialisten, von denen jeder bevorzugt eine bestimmte Kategorie von Reizen verarbeitet, alle getragen vom selben ventralen Pfad. Gesichter sind nur zufällig die auffälligste und am besten charakterisierte Insel.

Fast ein Jahrzehnt später wurden die Befunde an Makaken und Menschen auf der Ebene einzelner Zellen zusammengeführt. Doris Tsao und Winrich Freiwald, die mit Margaret Livingstone in Harvard arbeiteten, lokalisierten zunächst mit fMRT bei wachen Makaken einzelne Gesichtsareale im inferotemporalen Kortex und senkten dann Wolframmikroelektroden in jedes Areal und leiteten einzelne Neuronen ab. Ihr Bericht von 2006 in Science fand etwas Bemerkenswertes, nämlich dass fast jedes Neuron, das sie in einem Gesichtsareal ableiteten, gesichtsselektiv war. Das war Gross' Befund im Großen und Organisierten, keine verstreuten Zellen mehr, sondern dichte, eigens dafür bestimmte Cluster. Spätere Arbeiten aus den Laboren von Tsao und Freiwald beschrieben eine Hierarchie, die sich über die Areale erstreckt, wobei posteriore Areale Gesichter ansichtsspezifisch repräsentieren, an einen bestimmten Winkel gebunden, und weiter anterior gelegene Areale auf eine ansichtsinvariante Repräsentation der Identität hinarbeiten, also dieselbe Person erkennen, unabhängig davon, wie der Kopf gedreht ist.

Wenn das System ausfällt

Eine der wirkungsvollsten Methoden, um zu erfahren, was eine Hirnregion tut, ist zu untersuchen, was geschieht, wenn sie zu arbeiten aufhört, und für die Gesichtserkennung hat diese klinische Signatur einen Namen und eine lange Geschichte. 1947 veröffentlichte Joachim Bodamer, ein deutscher Neurologe an der Tübinger Nervenklinik, eine Fallserie von drei Patienten, die nach einer Schädigung der okzipitotemporalen Region des Gehirns die Fähigkeit verloren hatten, Gesichter zu erkennen. Er prägte den Begriff Prosopagnosie, vom griechischen prosopon für Gesicht und agnosia für Nicht-Wissen, ein Nicht-Wissen von Gesichtern.

Was diese Fälle so wichtig machte, war ihre Selektivität. Die Patienten konnten noch immer einwandfrei sehen, konnten noch immer Objekte erkennen, konnten eine Person oft noch immer an der Stimme, am Gang oder an einem auffälligen Hut identifizieren, doch das Gesicht selbst, als Weg zur Identität, war schlicht nicht verfügbar. Ein vertrautes Gesicht, selbst das eines Ehepartners, wurde als Gesicht registriert, aber nicht als jemand Bestimmtes. Das war der erste klinische Beweis dafür, dass die Gesichtserkennung für sich allein versagen kann, während der Rest des Sehens intakt bleibt, was genau das ist, was man erwarten würde, wenn das Gehirn eine zweckgebundene Maschinerie für Gesichter aufwendet, statt sie wie jedes andere Objekt zu behandeln.

Die Prosopagnosie tritt in zwei Formen auf. Die erworbene Form folgt auf eine Schädigung des rechten Gyrus fusiformis und des umliegenden unteren okzipitotemporalen Kortex, gewöhnlich nach einem Schlaganfall, einer Kopfverletzung oder einer chirurgischen Entfernung von Gewebe, und sie ist relativ selten. Die angeborene Form ist anders, eine lebenslange Schwierigkeit, Gesichter zu erkennen, bei Menschen mit normalem Sehvermögen, normaler Intelligenz und ohne nachweisbare Hirnläsion. Sie ist weit häufiger, als die meisten Menschen annehmen, mit einer geschätzten Prävalenz von etwa 2 Prozent der Bevölkerung, was bedeutet, dass wahrscheinlich jemand, den du kennst, im Stillen mit Gesichtern ringt und einfach gelernt hat, das zu kompensieren. Brad Duchaine und Ken Nakayama systematisierten in den 2000er Jahren die diagnostischen Kriterien für diese angeborene Form und gaben Forschern damit eine verlässliche Möglichkeit, sie zu erkennen und zu untersuchen.

Eine Landkarte der Schritte vom Gesicht zum Namen

Die Neurowissenschaft sagt uns, wo die Maschinerie sitzt, doch die Psychologie liefert eine ergänzende Landkarte der Schritte, die der Verstand zwischen dem Sehen eines Gesichts und dem Wissen, wessen es ist, durchläuft. Das Standardgerüst stammt von Vicki Bruce und Andy Young, deren Arbeit von 1986 „Understanding face recognition" im British Journal of Psychology eine Abfolge kognitiver Stufen vorschlug, die das Feld noch immer ordnet.

In ihrem Modell beginnt die Erkennung mit der strukturellen Kodierung, die eine vom Blickwinkel unabhängige Beschreibung des Gesichts aufbaut, das du betrachtest, abstrahiert vom jeweiligen Winkel und der jeweiligen Beleuchtung. Diese Beschreibung wird dann mit Gesichtserkennungseinheiten abgeglichen, gespeicherten Vorlagen für jedes vertraute Gesicht, um festzustellen, ob du diese Person schon einmal gesehen hast. Wird eine Übereinstimmung gefunden, verknüpfen Personenidentitätsknoten das erkannte Gesicht mit allem, was du über diese Person weißt, ihrem Beruf, wo du sie kennengelernt hast, der Tatsache, dass sie dir Geld schuldet. Erst auf der letzten Stufe liest der Namensabruf den eigentlichen Namen aus. Diese gestufte Architektur erklärt sauber eine frustrierende Alltagserfahrung, den Moment, in dem du ein Gesicht erkennst und genau weißt, wer jemand ist, den Namen aber nicht aufrufen kannst. Im Modell von Bruce und Young ist das ein sauberer Zusammenbruch auf der letzten Stufe, die Identität ist wiederhergestellt, doch die Namensstufe feuert nicht.

Ist die Gesichtsregion für Gesichter gebaut oder für Expertise?

Ein guter wissenschaftlicher Befund erzeugt eine gute Auseinandersetzung, und die FFA brachte eine hervor, die seit dem Erscheinen der Arbeit von 1997 läuft. Die Frage ist trügerisch einfach. Ist die fusiforme Gesichtsregion wirklich ein Gesichtsmodul, oder ist sie eine Region, die lediglich sehr gut in Gesichtern geworden ist, weil Gesichter das sind, was wir alle am meisten üben?

Die Modularitätserklärung, vertreten von Kanwisher und ihren Kollegen, besagt, dass die FFA ein gesichtsspezifisches kortikales Modul ist, das Ergebnis einer evolutionär oder durch Erfahrung geformten Spezialisierung auf die besondere Reizklasse der Gesichter. Aus dieser Sicht sind Gesichter etwas Besonderes, und das Gehirn behandelt sie als solche mit eigens dafür bestimmter Hardware. Die konkurrierende Expertise-Erklärung, vertreten von Isabel Gauthier und Kollegen in Vanderbilt, schlägt stattdessen vor, dass die FFA auf die feinkörnige Unterscheidung innerhalb jeder Kategorie spezialisiert ist, die man genug geübt hat, um darin Experte zu werden, also ein nahezu identisches Ding von einem anderen zu unterscheiden. Gesichter sind aus dieser Sicht einfach die universelle Expertise, die eine Kategorie, die jeder sehende Mensch von Kindesbeinen an intensiv übt, sodass die Region gesichtsselektiv erscheint, weil Gesichter das Unterscheidungsproblem sind, das jeder gemeistert hat. Die Debatte ist nicht sauber entschieden, und die ehrliche Position ist, dass beide Erklärungen etwas Reales über eine Region einfangen, die zugleich zuverlässig gesichtsbevorzugend und klar durch Erfahrung geformt ist. Diese echte, fortdauernde Spannung ist selbst ein Zeichen dafür, dass die FFA ein aktives Forschungsproblem bleibt und kein abgeschlossener Fall.

Die wichtigsten Erkenntnisse

Ein Gesicht zu erkennen, stützt sich auf den ventralen Was-Strom, eine Verarbeitungskette, die vom primären visuellen Kortex (V1) durch V2, V4 und in den inferotemporalen Kortex verläuft, wo jede Stufe Komplexität hinzufügt, bis ganze Objekte und erlernte Kategorien repräsentiert werden; Mishkin und Ungerleider unterschieden diesen Was-Strom 1982 von einem dorsalen Wo-Strom. Charles Gross leitete Anfang der 1970er Jahre die ersten gesichtsselektiven Neuronen im inferotemporalen Kortex von Makaken ab und stieß dabei auf eine skeptische Aufnahme, ein Befund, der sich bestätigte, als Kanwisher, McDermott und Chun 1997 die menschliche fusiforme Gesichtsregion mit fMRT lokalisierten, ein Areal in der rechten Hemisphäre, das bei Gesichtern etwa doppelt so stark feuert wie bei anderen Bildern, und sich erneut bestätigte, als Tsao und Freiwald 2006 zeigten, dass nahezu jedes Neuron in einem Gesichtsareal von Makaken gesichtsselektiv ist, mit einer Hierarchie von ansichtsspezifischer zu ansichtsinvarianter Identität. Die Prosopagnosie, 1947 von Bodamer benannt und aufgeteilt in eine seltene erworbene Form und eine angeborene Form, die etwa 2 Prozent der Menschen betrifft, zeigt, dass die Gesichtserkennung zusammenbrechen kann, während der Rest des Sehens überlebt, und das Modell von Bruce und Young aus dem Jahr 1986 kartiert die kognitiven Schritte von der strukturellen Kodierung bis zum Namensabruf, während die ungeklärte Debatte zwischen Kanwishers Modularitätserklärung und Gauthiers Expertise-Erklärung die Frage, warum diese Region existiert, wirklich offen hält.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free