In una stanza buia della Harvard Medical School, nel 1958, due giovani scienziati stavano perdendo la pazienza. David Hubel e Torsten Wiesel avevano inserito un microelettrodo di tungsteno nella corteccia visiva primaria di un gatto anestetizzato e per ore avevano proiettato puntini di luce su uno schermo, cercando di far scaricare il neurone. Il monitor audio che trasformava le scariche elettriche della cellula in clic restava ostinatamente silenzioso. Poi un vetrino si incastrò nel proiettore. Mentre lo liberavano scuotendolo, il bordo scuro del vetrino attraversò lo schermo e il monitor esplose improvvisamente in un crepitio netto e ritmico. Il neurone non si interessava affatto ai puntini di luce. Si interessava a un bordo in movimento inclinato secondo un angolo particolare.
Quel crepitio accidentale è uno dei suoni fondativi delle neuroscienze moderne e, per quanto improbabile, anche dell'intelligenza artificiale moderna. La linea che corre dalla corteccia visiva di quel gatto fino ai classificatori di immagini e ai chatbot degli anni 2020 è diretta e tracciabile, e nell'ottobre del 2024 la Reale Accademia Svedese delle Scienze l'ha certificata assegnando il Premio Nobel per la Fisica a due pionieri delle reti neurali artificiali. Questo articolo segue quella linea: come una scoperta sul modo in cui il cervello vede i bordi abbia dato origine a un'intera famiglia di macchine, e quale sia davvero, a guardarla da vicino, la relazione tra i cervelli e i sistemi che hanno ispirato.
La corteccia del gatto e l'architettura del vedere
Tra il 1958 e il 1965, lavorando alla Harvard Medical School, Hubel e Wiesel mapparono le proprietà di risposta dei neuroni nella corteccia visiva primaria, la regione nota anche come V1 o area 17 di Brodmann. Registrando da gatti e scimmie anestetizzati, scoprirono che i singoli neuroni erano squisitamente schizzinosi. Alcune cellule, che chiamarono cellule semplici, scaricavano solo quando un bordo di un orientamento specifico cadeva su un punto specifico della retina; inclinando il bordo o spostandolo di poco, la cellula ammutoliva. Altre cellule, le cellule complesse, erano altrettanto selettive per l'orientamento ma molto più tolleranti rispetto alla posizione, rispondendo a un bordo dell'angolo giusto ovunque all'interno di una regione.
L'intuizione cruciale non riguardava le singole cellule, ma la relazione tra di esse. Hubel e Wiesel proposero una gerarchia, in cui le cellule semplici, precise e vincolate alla posizione, alimentano le cellule complesse più tolleranti, così che il sistema costruisce una rappresentazione che riconosce una caratteristica indipendentemente dalla sua esatta collocazione. Specificità alla base, invarianza costruita stratificando al di sopra. Per aver mostrato come il mondo visivo viene scomposto e riassemblato in fasi di elaborazione corticale, i due condivisero il Premio Nobel per la Medicina o la Fisiologia del 1981 con Roger Sperry. L'idea che la visione sia una gerarchia stratificata di rilevatori di caratteristiche, in cui ogni fase combina gli output di quella sottostante in qualcosa di più astratto e più stabile, si sarebbe rivelata una delle idee più feconde nella storia dell'informatica.
Dalla corteccia al silicio: il Neocognitron
Il primo ingegnere a prendere sul serio quella gerarchia come progetto fu Kunihiko Fukushima. Lavorando ai NHK Broadcasting Science Research Laboratories di Tokyo, pubblicò un modello sulla rivista Biological Cybernetics nel 1980 con un titolo che ne annunciava apertamente l'ambizione: "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". La frase "unaffected by shift in position", non influenzato dallo spostamento di posizione, è Hubel e Wiesel tradotti nel linguaggio delle macchine, perché l'invarianza di posizione, la capacità di riconoscere una forma indipendentemente da dove appare, era esattamente il problema che le cellule complesse risolvevano.
Il Neocognitron copiava la corteccia quasi strato per strato. Alternava quelli che Fukushima chiamava strati di cellule S, modellati direttamente sulle cellule semplici di Hubel e Wiesel e sintonizzati su caratteristiche locali, con strati di cellule C, modellati sulle cellule complesse e aggreganti sulla posizione per concedere tolleranza ai piccoli spostamenti. Impilata in una gerarchia profonda, la rete veniva addestrata a riconoscere cifre scritte a mano. Funzionava, e dimostrava qualcosa di profondo: una macchina costruita sullo schema di cablaggio del cervello poteva risolvere un vero compito percettivo. Ciò che le mancava era un modo efficiente per apprendere dai dati la forza delle proprie connessioni, il tassello che sarebbe arrivato in seguito e che avrebbe cambiato tutto.
La rivoluzione convoluzionale: da LeCun ad AlexNet
Quel tassello mancante prese forma nelle mani di Yann LeCun. Ai Bell Labs, nel 1989, LeCun pubblicò la prima rete neurale convoluzionale pratica per la lettura di cifre scritte a mano, un progetto poi perfezionato e chiamato LeNet-5 nel 1998. La rete convoluzionale conservava lo scheletro ispirato al cervello di Fukushima, l'alternanza di strati di rilevamento di caratteristiche e strati di aggregazione, ma lo addestrava con la backpropagation, un algoritmo che regola in modo efficiente ogni connessione della rete risalendo gli errori a ritroso dall'output. LeNet venne impiegata commercialmente per leggere le cifre sugli assegni bancari, una delle prime reti neurali a svolgere un vero lavoro economico nel mondo.
Per oltre due decenni l'approccio ribollì senza mai traboccare, limitato dai dati e dalla potenza di calcolo disponibili. Poi, nel 2012, Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, all'Università di Toronto, iscrissero una rete convoluzionale a otto strati, presto nota universalmente come AlexNet, all'ImageNet Large Scale Visual Recognition Challenge, una gara per classificare fotografie in mille categorie. AlexNet non si limitò a vincere; vinse con un margine così ampio da mettere in imbarazzo ogni metodo concorrente. Nel giro di circa un anno l'intero campo della visione artificiale abbandonò le sue vecchie tecniche costruite a mano e virò verso il deep learning. La discendenza era ininterrotta: i rilevatori di caratteristiche stratificati di AlexNet erano i pronipoti delle cellule semplici e complesse di quel gatto del 1958, scalati e addestrati su un milione di immagini.
L'altra tradizione: Hopfield, energia e memoria
La linea convoluzionale è solo metà della storia, e il Nobel del 2024 ha onorato anche l'altra metà. Nel 1982, il fisico John Hopfield pubblicò un articolo sui Proceedings of the National Academy of Sciences intitolato "Neural networks and physical systems with emergent collective computational abilities". Hopfield arrivò alle reti neurali dalla fisica statistica più che dalla biologia, e introdusse quella che oggi si chiama rete di Hopfield, un modello ricorrente in cui le connessioni definiscono un paesaggio energetico. Si presenta alla rete uno schema corrotto o parziale, e la sua dinamica rotola verso il basso, come una pallina che si accomoda in una valle, finché non raggiunge una memoria immagazzinata. Era una teoria matematica della memoria associativa, la capacità di recuperare un intero a partire da un frammento, nel modo in cui qualche nota di una melodia può richiamare un'intera canzone.
L'impostazione basata sull'energia di Hopfield diede origine a un programma di ricerca che Geoffrey Hinton estese attraverso la macchina di Boltzmann, una rete probabilistica costruita su principi fisici simili, e proseguì con le reti di credenza profonde che contribuirono a riaccendere l'interesse per le architetture a molti strati a metà degli anni 2000. La portata di questa tradizione divenne notevolmente ampia. Il transformer, l'architettura pubblicata da Ashish Vaswani e colleghi a Google nell'articolo del 2017 "Attention Is All You Need" e oggi motore all'interno dei grandi modelli linguistici, discende da questo stesso mondo di associazioni apprese e calcolo collettivo emergente, anche se il suo meccanismo di auto-attenzione è un progetto feedforward e non ricorrente. Hopfield fornì la fisica della memoria, Hinton fornì il macchinario dell'apprendimento, e tra loro plasmarono le due grandi discendenze del campo.
8 ottobre 2024: la fisica rivendica la rete neurale
L'8 ottobre 2024, la Reale Accademia Svedese delle Scienze assegnò il Premio Nobel per la Fisica congiuntamente a John J. Hopfield, emerito alla Princeton University, e Geoffrey E. Hinton, dell'Università di Toronto e già di Google, "per le scoperte e le invenzioni fondamentali che rendono possibile l'apprendimento automatico con reti neurali artificiali". Un premio per la fisica assegnato alla scienza dietro l'apprendimento automatico sorprese molti osservatori, ma la scelta era coerente al suo interno: il contributo di Hopfield affondava le radici nella meccanica statistica dei sistemi fisici, e la tradizione basata sull'energia da lui aperta percorre un arco limpido che attraversa la macchina di Boltzmann di Hinton, la sua difesa della backpropagation e le sue reti di credenza profonde, fino alla tecnologia che oggi ridisegna la vita quotidiana. Il riconoscimento fu l'ammissione, da parte della disciplina, che astrazioni prese in prestito dai cervelli e dalla fisica erano diventate una conquista intellettuale degna del suo più alto onore.
Quando le macchine hanno iniziato a prevedere il cervello
Finora l'influenza è scorsa in una sola direzione, dalle neuroscienze all'ingegneria. Ma uno degli sviluppi più sorprendenti dell'ultimo decennio è l'influenza che torna indietro, con le reti artificiali che si trasformano in strumenti per comprendere il cervello che le ha ispirate. Nel 2014, Daniel Yamins e James DiCarlo, al MIT, pubblicarono uno studio sulla stessa rivista che aveva ospitato il lavoro di Hopfield tre decenni prima. Addestrarono reti convoluzionali profonde sul riconoscimento di oggetti, poi confrontarono le attivazioni all'interno di quelle reti addestrate con registrazioni reali di singoli neuroni della corteccia inferotemporale di scimmie macaco, una regione visiva di alto livello in cui gli oggetti vengono riconosciuti. Le reti prevedevano i tassi di scarica neurale reali meglio di qualsiasi modello precedente e, in modo significativo, gli strati più profondi e più rilevanti per la categorizzazione corrispondevano meglio ai neuroni visivi di alto livello. Un sistema costruito per imitare il cervello aveva chiuso il cerchio fino a diventarne il modello migliore.
Una convergenza parallela emerse nello studio della ricompensa. Nel 1997, Wolfram Schultz, Peter Dayan e Read Montague pubblicarono un articolo su Science che mostrava come i neuroni dopaminergici del mesencefalo, nell'area tegmentale ventrale e nella substantia nigra pars compacta, non segnalino semplicemente il piacere, ma codifichino un errore di predizione della ricompensa, lo scarto tra la ricompensa che un animale si aspettava e la ricompensa che ha ricevuto. Quel segnale biologico si rivelò straordinariamente simile al segnale di apprendimento a differenza temporale al centro della teoria dell'apprendimento per rinforzo sviluppata da Richard Sutton e Andrew Barto. Un concetto inventato dagli informatici per far apprendere le macchine per tentativi ed errori fu ritrovato, quasi parola per parola, scritto nella chimica del cervello. Gli stessi principi alimentarono in seguito i sistemi di apprendimento per rinforzo profondo di DeepMind, dal DQN che giocava ai videogiochi Atari nel 2013 ad AlphaGo nel 2016 e AlphaZero nel 2017.
Una cautela utile: le reti non sono neuroni
Nonostante tutte queste risonanze, sarebbe un errore grave concludere che le reti artificiali odierne siano modelli realistici dei cervelli biologici, ed è forse questa la convinzione errata più gravida di conseguenze in tutta la discussione. I neuroni reali comunicano con scariche elettriche discrete, non con le attivazioni continue e regolari di un'unità artificiale. L'apprendimento biologico non sembra usare la backpropagation a gradiente, e come il cervello regoli davvero le sue sinapsi resta una questione aperta. I dendriti di un singolo neurone eseguono calcoli molto più ricchi della semplice somma ponderata che calcola una tipica unità artificiale. E la scala fa riflettere: la corteccia umana ospita nell'ordine di 86 miliardi di neuroni collegati attraverso circa 100 trilioni di sinapsi, immersi in un macchinario cellulare che nessuna rete artificiale attuale riproduce. Il prestito fu un'ispirazione, non una copia, e la posizione onesta è che i cervelli e le macchine che hanno seminato sono cugini, accomunati da un antenato nella gerarchia di Hubel e Wiesel, ma profondamente diversi nella loro biologia.
È anche qui che le neuroscienze e l'ingegneria stanno convergendo più direttamente su nuovo hardware. Un campo a volte chiamato calcolo neuromorfico o ispirato al cervello costruisce silicio che imita la dinamica neurale nel chip stesso, anziché emularla su processori grafici convenzionali. Tra gli sforzi più importanti vi sono Loihi di Intel, TrueNorth di IBM, il sistema Neurogrid di Kwabena Boahen a Stanford e SpiNNaker, la macchina a reti spiking costruita sotto la guida di Steve Furber all'Università di Manchester. Ciascuno esegue reti neurali spiking in silicio con un'efficienza energetica molto elevata. Nessuno ha ancora soppiantato il deep learning basato su GPU, ma segnano la frontiera in cui i principi di progettazione del cervello e l'hardware pratico per l'IA si incontrano nel modo più diretto.
Punti chiave
La storia di come il cervello ha ispirato l'IA è un'unica discendenza tracciabile che inizia con un vetrino di proiettore incastrato nel 1958, quando Hubel e Wiesel scoprirono che i neuroni della corteccia visiva sono rilevatori di caratteristiche stratificati, con cellule semplici che alimentano cellule complesse tolleranti alla posizione, un'architettura che Fukushima tradusse nel Neocognitron nel 1980, che LeCun rese addestrabile come rete convoluzionale nel 1989 e che esplose nell'era moderna quando AlexNet vinse ImageNet nel 2012. Una seconda tradizione, nata dalla fisica, corre dal modello basato sull'energia della memoria associativa di Hopfield del 1982, attraverso le macchine di Boltzmann e le reti di credenza profonde di Hinton, verso i transformer dietro i modelli linguistici di oggi, e queste due discendenze insieme valsero a Hopfield e Hinton il Premio Nobel per la Fisica del 2024. L'influenza ora scorre in entrambe le direzioni, mentre le reti profonde prevedono le scariche reali nella corteccia inferotemporale dei macachi e mentre l'errore di predizione della ricompensa dopaminergico scoperto da Schultz, Dayan e Montague rispecchia quasi esattamente la teoria dell'apprendimento per rinforzo. Eppure la somiglianza ha limiti netti, perché i neuroni reali scaricano impulsi, apprendono senza backpropagation e calcolano nei loro dendriti, ammassati in 86 miliardi in circuiti che nessuna rete artificiale riproduce, ed è per questo che la descrizione più accurata dei cervelli e dell'IA non è identità, ma una profonda e produttiva somiglianza di famiglia.
Learn more with Mindoria
Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.
Download Free