In einem abgedunkelten Raum der Harvard Medical School verloren 1958 zwei junge Wissenschaftler allmählich die Geduld. David Hubel und Torsten Wiesel hatten eine Wolfram-Mikroelektrode in den primären visuellen Kortex einer betäubten Katze geschoben und stundenlang Lichtpunkte auf einen Bildschirm projiziert, um das Neuron zum Feuern zu bringen. Der Audiomonitor, der die elektrischen Spikes der Zelle in Klicks verwandelte, blieb hartnäckig still. Dann klemmte ein Glasdia im Projektor. Als sie es ruckelnd lösten, fegte die dunkle Kante des Dias über den Bildschirm, und der Monitor brach plötzlich in ein sauberes, rhythmisches Knistern aus. Das Neuron interessierte sich überhaupt nicht für Lichtpunkte. Es interessierte sich für eine bewegte Kante, die in einem ganz bestimmten Winkel geneigt war.
Dieses zufällige Knistern ist einer der Gründungsklänge der modernen Neurowissenschaft und, so unwahrscheinlich es klingt, auch der modernen künstlichen Intelligenz. Die Linie, die vom visuellen Kortex jener Katze zu den Bildklassifikatoren und Chatbots der 2020er Jahre führt, ist direkt und nachvollziehbar, und im Oktober 2024 bestätigte die Königlich Schwedische Akademie der Wissenschaften sie, indem sie den Nobelpreis für Physik an zwei Pioniere der künstlichen neuronalen Netze verlieh. Dieser Artikel folgt jener Linie: wie eine Entdeckung darüber, wie das Gehirn Kanten sieht, eine ganze Familie von Maschinen hervorbrachte, und worin die Beziehung zwischen Gehirnen und den von ihnen inspirierten Systemen tatsächlich besteht, wenn man genauer hinschaut.
Der Kortex der Katze und die Architektur des Sehens
Zwischen 1958 und 1965 kartierten Hubel und Wiesel an der Harvard Medical School die Reaktionseigenschaften von Neuronen im primären visuellen Kortex, jener Region, die auch als V1 oder Brodmann-Areal 17 bekannt ist. Bei Ableitungen an betäubten Katzen und Affen stellten sie fest, dass einzelne Neuronen ausgesprochen wählerisch waren. Manche Zellen, die sie einfache Zellen nannten, feuerten nur, wenn eine Kante einer bestimmten Orientierung auf eine bestimmte Stelle der Netzhaut fiel; neigte man die Kante oder verschob sie ein wenig, verstummte die Zelle. Andere Zellen, die komplexen Zellen, waren ebenso orientierungsselektiv, aber weit nachsichtiger, was die Position anging, und reagierten auf eine Kante im richtigen Winkel überall innerhalb eines bestimmten Bereichs.
Die entscheidende Erkenntnis betraf nicht die einzelnen Zellen, sondern die Beziehung zwischen ihnen. Hubel und Wiesel schlugen eine Hierarchie vor, in der die präzisen, positionsgebundenen einfachen Zellen in die toleranteren komplexen Zellen münden, sodass das System eine Repräsentation aufbaut, die ein Merkmal unabhängig davon erkennt, wo genau es sich befindet. Spezifität an der Basis, Invarianz darüber Schicht um Schicht aufgebaut. Dafür, dass sie zeigten, wie die visuelle Welt in Stufen kortikaler Verarbeitung zerlegt und wieder zusammengesetzt wird, erhielten die beiden 1981 zusammen mit Roger Sperry den Nobelpreis für Physiologie oder Medizin. Die Idee, dass Sehen eine geschichtete Hierarchie von Merkmalsdetektoren ist, bei der jede Stufe die Ausgaben der darunterliegenden zu etwas Abstrakterem und Stabilerem verbindet, sollte sich als eine der fruchtbarsten Ideen in der Geschichte der Informatik erweisen.
Vom Kortex zum Silizium: das Neocognitron
Der erste Ingenieur, der diese Hierarchie ernsthaft als Blaupause aufgriff, war Kunihiko Fukushima. An den NHK Broadcasting Science Research Laboratories in Tokio veröffentlichte er 1980 in der Zeitschrift Biological Cybernetics ein Modell mit einem Titel, der seinen Anspruch unmissverständlich verkündete: "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Die Wendung "unaffected by shift in position" ist Hubel und Wiesel, übersetzt in die Sprache der Maschinen, denn Positionsinvarianz, die Fähigkeit, eine Form unabhängig davon zu erkennen, wo sie erscheint, war genau das Problem, das die komplexen Zellen lösten.
Das Neocognitron ahmte den Kortex nahezu Schicht für Schicht nach. Es ließ Schichten, die Fukushima S-Zell-Schichten nannte und die direkt den einfachen Hubel-Wiesel-Zellen nachgebildet und auf lokale Merkmale abgestimmt waren, mit C-Zell-Schichten abwechseln, die den komplexen Zellen nachgebildet waren und über die Position pooltem, um Toleranz gegenüber kleinen Verschiebungen zu gewähren. Zu einer tiefen Hierarchie gestapelt, wurde das Netz darauf trainiert, handgeschriebene Ziffern zu erkennen. Es funktionierte, und es zeigte etwas Tiefgreifendes: Eine Maschine, die nach dem Verdrahtungsschema des Gehirns gebaut war, konnte eine echte Wahrnehmungsaufgabe lösen. Was ihm fehlte, war ein effizienter Weg, seine eigenen Verbindungsstärken aus Daten zu lernen, jenes Stück, das später eintreffen und alles verändern sollte.
Die Faltungsrevolution: von LeCun zu AlexNet
Dieses fehlende Stück fügte sich in den Händen von Yann LeCun zusammen. An den Bell Labs veröffentlichte LeCun 1989 das erste praktische faltende neuronale Netz zum Lesen handgeschriebener Ziffern, ein Entwurf, der später verfeinert und 1998 LeNet-5 genannt wurde. Das faltende Netz behielt Fukushimas vom Gehirn inspiriertes Skelett bei, den Wechsel von merkmalerkennenden und Pooling-Schichten, trainierte es aber mit Backpropagation, einem Algorithmus, der jede Verbindung im Netz effizient anpasst, indem er Fehler vom Ausgang rückwärts zurückverfolgt. LeNet wurde kommerziell eingesetzt, um die Ziffern auf Bankschecks zu lesen, eines der ersten neuronalen Netze, das in der Welt echte wirtschaftliche Arbeit leistete.
Mehr als zwei Jahrzehnte lang köchelte der Ansatz vor sich hin, ohne überzukochen, begrenzt durch die verfügbaren Daten und Rechenleistung. Dann setzten 2012 Alex Krizhevsky, Ilya Sutskever und Geoffrey Hinton an der University of Toronto ein achtschichtiges faltendes Netz, bald universell als AlexNet bekannt, in der ImageNet Large Scale Visual Recognition Challenge ein, einem Wettbewerb zur Einordnung von Fotografien in tausend Kategorien. AlexNet gewann nicht einfach nur; es gewann mit einem so großen Abstand, dass es jede konkurrierende Methode beschämte. Innerhalb von etwa einem Jahr ließ das gesamte Feld der Computer Vision seine alten, von Hand entworfenen Techniken fallen und wandte sich dem Deep Learning zu. Die Abstammung war ununterbrochen: AlexNets geschichtete Merkmalsdetektoren waren die Urenkel der einfachen und komplexen Zellen jener Katze von 1958, hochskaliert und an einer Million Bildern trainiert.
Die andere Tradition: Hopfield, Energie und Gedächtnis
Die Faltungslinie ist nur die halbe Geschichte, und der Nobelpreis 2024 würdigte auch die andere Hälfte. 1982 veröffentlichte der Physiker John Hopfield in den Proceedings of the National Academy of Sciences einen Aufsatz mit dem Titel "Neural networks and physical systems with emergent collective computational abilities." Hopfield kam von der statistischen Physik her und nicht von der Biologie und führte das ein, was man heute das Hopfield-Netz nennt, ein rekurrentes Modell, in dem die Verbindungen eine Energielandschaft definieren. Präsentiert man dem Netz ein verfälschtes oder unvollständiges Muster, so rollt seine Dynamik bergab, wie eine Kugel, die sich in einem Tal niederlässt, bis sie eine gespeicherte Erinnerung erreicht. Dies war eine mathematische Theorie des assoziativen Gedächtnisses, der Fähigkeit, ein Ganzes aus einem Fragment abzurufen, so wie ein Melodiefetzen ein ganzes Lied zurückholen kann.
Hopfields energiebasierte Sichtweise legte den Grundstein für ein Forschungsprogramm, das Geoffrey Hinton über die Boltzmann-Maschine fortführte, ein probabilistisches Netz, das auf ähnlichen physikalischen Prinzipien aufbaut, und weiter über die Deep Belief Networks, die in der Mitte der 2000er Jahre dazu beitrugen, das Interesse an vielschichtigen Architekturen neu zu entfachen. Die Reichweite der Tradition wurde bemerkenswert groß. Der Transformer, jene Architektur, die Ashish Vaswani und Kollegen bei Google 2017 in dem Aufsatz "Attention Is All You Need" veröffentlichten und die heute der Motor in großen Sprachmodellen ist, stammt aus derselben Welt gelernter Assoziationen und emergenter kollektiver Berechnung, auch wenn sein Selbstaufmerksamkeitsmechanismus ein vorwärtsgerichteter Entwurf ist und kein rekurrenter. Hopfield lieferte die Physik des Gedächtnisses, Hinton lieferte die Lernmaschinerie, und gemeinsam prägten sie die zwei großen Stammlinien des Feldes.
8. Oktober 2024: Die Physik beansprucht das neuronale Netz
Am 8. Oktober 2024 verlieh die Königlich Schwedische Akademie der Wissenschaften den Nobelpreis für Physik gemeinsam an John J. Hopfield, emeritiert an der Princeton University, und Geoffrey E. Hinton von der University of Toronto und ehemals bei Google, "für grundlegende Entdeckungen und Erfindungen, die maschinelles Lernen mit künstlichen neuronalen Netzen ermöglichen." Ein Physikpreis für die Wissenschaft hinter dem maschinellen Lernen überraschte viele Beobachter, doch die Wahl war in sich stimmig: Hopfields Beitrag wurzelte in der statistischen Mechanik physikalischer Systeme, und die von ihm eröffnete energiebasierte Tradition verläuft in einem klaren Bogen über Hintons Boltzmann-Maschine, sein Eintreten für Backpropagation und seine Deep Belief Networks hin zu der Technologie, die heute das tägliche Leben umgestaltet. Die Auszeichnung war das Eingeständnis der Disziplin, dass Abstraktionen, die von Gehirnen und von der Physik entlehnt waren, zu einer intellektuellen Leistung geworden waren, die ihrer höchsten Ehrung würdig ist.
Als die Maschinen begannen, das Gehirn vorherzusagen
Bisher floss der Einfluss in eine Richtung, von der Neurowissenschaft in die Technik. Doch eine der bemerkenswertesten Entwicklungen des letzten Jahrzehnts ist, dass der Einfluss zurückfließt, indem künstliche Netze zu Werkzeugen werden, um das Gehirn zu verstehen, das sie inspiriert hat. 2014 veröffentlichten Daniel Yamins und James DiCarlo am MIT eine Studie in derselben Zeitschrift, die drei Jahrzehnte zuvor Hopfields Arbeit gebracht hatte. Sie trainierten tiefe faltende Netze auf Objekterkennung und verglichen dann die Aktivierungen in diesen trainierten Netzen mit tatsächlichen Einzelzellableitungen aus dem inferotemporalen Kortex von Makakenaffen, einer hochrangigen visuellen Region, in der Objekte erkannt werden. Die Netze sagten die realen neuronalen Feuerraten besser voraus als jedes frühere Modell, und bezeichnenderweise passten die tiefsten, am stärksten kategorisierungsrelevanten Schichten am besten zu den hochrangigen visuellen Neuronen. Ein System, das gebaut worden war, um das Gehirn nachzuahmen, hatte sich zu dessen bestem Modell zurückgekehrt.
Eine parallele Annäherung zeigte sich bei der Erforschung der Belohnung. 1997 veröffentlichten Wolfram Schultz, Peter Dayan und Read Montague einen Aufsatz in Science, der zeigte, dass Dopaminneuronen im Mittelhirn, im ventralen tegmentalen Areal und in der Substantia nigra pars compacta, nicht einfach Vergnügen signalisieren, sondern einen Belohnungsvorhersagefehler kodieren, die Lücke zwischen der Belohnung, die ein Tier erwartete, und der Belohnung, die es erhielt. Dieses biologische Signal erwies sich als bemerkenswert ähnlich dem Temporal-Difference-Lernsignal, das im Zentrum der von Richard Sutton und Andrew Barto entwickelten Theorie des bestärkenden Lernens steht. Ein Konzept, das von Informatikern erfunden wurde, um Maschinen durch Versuch und Irrtum lernen zu lassen, fand sich fast Zeile für Zeile in die Chemie des Gehirns eingeschrieben. Dieselben Prinzipien trieben später DeepMinds tiefe bestärkende Lernsysteme an, vom Atari spielenden DQN 2013 über AlphaGo 2016 bis zu AlphaZero 2017.
Eine nützliche Mahnung: Netze sind keine Neuronen
Bei all diesen Resonanzen wäre es ein schwerer Fehler, zu schließen, dass die heutigen künstlichen Netze realistische Modelle biologischer Gehirne sind, und dies ist vielleicht das folgenreichste Missverständnis in der gesamten Diskussion. Echte Neuronen kommunizieren mit diskreten elektrischen Spikes, nicht mit den glatten, kontinuierlichen Aktivierungen einer künstlichen Einheit. Biologisches Lernen scheint keine Gradienten-Backpropagation zu verwenden, und wie das Gehirn seine Synapsen tatsächlich anpasst, bleibt eine offene Frage. Die Dendriten eines einzelnen Neurons führen Berechnungen aus, die weit reichhaltiger sind als die einfache gewichtete Summe, die eine typische künstliche Einheit berechnet. Und die Größenordnung ist demütigend: Der menschliche Kortex enthält in der Größenordnung von 86 Milliarden Neuronen, die über rund 100 Billionen Synapsen verdrahtet sind, eingebettet in eine zelluläre Maschinerie, die kein aktuelles künstliches Netz reproduziert. Die Anleihe war eine Inspiration, keine Kopie, und die ehrliche Position lautet, dass Gehirne und die von ihnen ausgesäten Maschinen Cousins sind, die in der Hierarchie von Hubel und Wiesel einen gemeinsamen Vorfahren teilen, sich aber in ihrer Biologie zutiefst unterscheiden.
Hier ist es auch, wo Neurowissenschaft und Technik am direktesten auf neue Hardware zusteuern. Ein Feld, das man manchmal neuromorphes oder vom Gehirn inspiriertes Rechnen nennt, baut Silizium, das die neuronale Dynamik im Chip selbst nachahmt, anstatt sie auf herkömmlichen Grafikprozessoren zu emulieren. Zu den führenden Bemühungen gehören Intels Loihi, IBMs TrueNorth, das Neurogrid-System von Kwabena Boahen in Stanford und SpiNNaker, die Spiking-Network-Maschine, die unter Steve Furber an der University of Manchester gebaut wurde. Jede betreibt Spiking-Netze in Silizium mit sehr hoher Energieeffizienz. Keine hat das GPU-basierte Deep Learning bislang verdrängt, doch sie markieren die Grenze, an der die Konstruktionsprinzipien des Gehirns und praktische KI-Hardware am unmittelbarsten aufeinandertreffen.
Die wichtigsten Erkenntnisse
Die Geschichte davon, wie das Gehirn die KI inspirierte, ist eine einzige nachvollziehbare Stammlinie, die mit einem verklemmten Projektordia im Jahr 1958 beginnt, als Hubel und Wiesel entdeckten, dass Neuronen des visuellen Kortex geschichtete Merkmalsdetektoren sind, einfache Zellen, die positionstolerante komplexe Zellen speisen, eine Architektur, die Fukushima 1980 in das Neocognitron umsetzte, die LeCun 1989 als faltendes Netz trainierbar machte und die in die moderne Ära explodierte, als AlexNet 2012 ImageNet gewann. Eine zweite Tradition, aus der Physik geboren, verläuft von Hopfields energiebasiertem Modell des assoziativen Gedächtnisses von 1982 über Hintons Boltzmann-Maschinen und Deep Belief Networks hin zu den Transformern hinter den heutigen Sprachmodellen, und diese beiden Stammlinien zusammen brachten Hopfield und Hinton den Nobelpreis für Physik 2024 ein. Der Einfluss verläuft nun in beide Richtungen, da tiefe Netze das reale Feuern im inferotemporalen Kortex von Makaken vorhersagen und da der von Schultz, Dayan und Montague entdeckte dopaminerge Belohnungsvorhersagefehler die Theorie des bestärkenden Lernens fast exakt widerspiegelt. Dennoch hat die Ähnlichkeit feste Grenzen, denn echte Neuronen feuern in Spikes, lernen ohne Backpropagation und rechnen in ihren Dendriten, zu 86 Milliarden dicht gepackt in Schaltkreise, die kein künstliches Netz reproduziert, weshalb die genaueste Beschreibung von Gehirnen und KI nicht Identität ist, sondern eine tiefe und fruchtbare Familienähnlichkeit.
Learn more with Mindoria
Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.
Download Free