← Back to Blog Neuroscience

Come il tuo cervello riconosce un volto in mezzo alla folla

June 5, 2026 · 9 min

Siamo intorno al 1996, a tarda sera, al McGovern Institute del MIT. Nancy Kanwisher è seduta a una postazione di lavoro mentre esamina le prime scansioni di risonanza magnetica funzionale analizzate di un singolo soggetto, e Josh McDermott e Marvin Chun le si stringono accanto per guardare la superficie corticale ricostruita che brilla sullo schermo. Sulla faccia inferiore dell'emisfero destro, una piccola area del giro fusiforme, di circa un centimetro quadrato, si illumina con un'intensità circa doppia in risposta alle fotografie di volti rispetto alle fotografie di oggetti, mani, case e volti scomposti. Il segnale è così pulito che non occorre mediarlo tra molte persone per poterlo vedere. È lì, in un solo cervello, su un solo schermo.

L'articolo sarebbe arrivato sul Journal of Neuroscience l'anno seguente con il titolo "The fusiform face area", e quell'area avrebbe acquisito un nome, la FFA, che il settore usa ancora tre decenni dopo. Quell'unica macchia luminosa solleva la domanda di cui tratta questo articolo. Da tutto il mondo visivo che si riversa nei tuoi occhi, come fa il cervello a isolare un volto, a distinguerlo da ogni altro volto che tu abbia mai visto, e a farlo in una frazione di secondo, in mezzo alla folla, con poca luce, da un'angolazione insolita? La risposta, a quanto pare, chiama in causa una specifica catena di montaggio di regioni corticali, un insieme dedicato di rilevatori di volti e un raro disturbo che rivela a che cosa serve l'intero sistema.

La catena di montaggio visiva che costruisce gli oggetti

Riconoscere qualcosa attraverso la vista comincia con una lunga catena di elaborazione lungo la parte inferiore del cervello chiamata via visiva corticale ventrale. Parte dalla corteccia visiva primaria (V1) all'estremità posteriore della testa, poi prosegue in avanti attraverso le aree V2 e V4 e infine nella corteccia inferotemporale, di solito abbreviata in IT. Ogni stazione lungo il percorso aggiunge uno strato di complessità, così che il pattern grezzo di luce e ombra sulla retina viene gradualmente trasformato in qualcosa che significa un volto, una tazza o un albero.

V1 si occupa degli ingredienti più elementari, i bordi locali e le zone orientate di contrasto che compongono qualsiasi immagine. V2 prende quei frammenti e costruisce contorni più complessi, compresi i contorni illusori (bordi che percepisci anche dove fisicamente non esiste alcun bordo) e la separazione di una figura dal suo sfondo. V4 unisce l'elaborazione della forma alla selettività per il colore. Quando i segnali raggiungono la corteccia inferotemporale, i singoli neuroni hanno campi recettivi ampi e rispondono a interi oggetti complessi, spesso con un tipo utile di stabilità chiamata invarianza, vale a dire che lo stesso neurone continua a rispondere allo stesso oggetto anche quando questo cambia posizione o dimensione. La IT è il luogo in cui il cervello immagazzina la selettività per le categorie apprese, ed è qui, in profondità nel lobo temporale, che risiede la macchina dei volti.

Questa divisione del lavoro non era ovvia. In un capitolo del 1982 ormai classico intitolato "Two cortical visual systems", Mortimer Mishkin e Leslie Ungerleider, che lavoravano al National Institute of Mental Health, si basarono su esperimenti con lesioni selettive nelle scimmie per sostenere che la visione si divide in due flussi paralleli oltre V1. Il flusso del cosa ventrale, che attraversa V2, V4 e IT, trasporta l'identità degli oggetti, ciò che una cosa è. Un distinto flusso del dove dorsale, che attraversa V2 e V5/MT fino alla corteccia parietale posteriore, trasporta la posizione spaziale e guida l'azione, dove si trova una cosa e come allungare la mano per raggiungerla. Il riconoscimento dei volti è chiaramente un compito del flusso del cosa.

I primi neuroni a cui importava dei volti

Molto prima che qualcuno potesse scansionare un cervello umano vivo, il primo indizio che la corteccia contenesse cellule specializzate per categorie venne da un singolo laboratorio e da un'accoglienza profondamente scettica. Charles Gross, che lavorava a Princeton dalla fine degli anni Sessanta, calò dei microelettrodi nella corteccia inferotemporale di scimmie macaco e registrò da singoli neuroni uno alla volta. Alcuni di quei neuroni, scoprì, rispondevano in modo intenso e specifico a immagini di mani e a immagini di volti, e quasi per niente ad altri stimoli.

Quando i primi articoli comparvero all'inizio degli anni Settanta, il settore non ci credette, o quantomeno non sapeva che cosa pensarne. L'assunto prevalente era che la corteccia non contenesse neuroni sintonizzati su qualcosa di tanto specifico e di alto livello come un volto, e un risultato così sorprendente faceva sospettare che si trattasse di un artefatto. La scoperta divenne canonica solo lentamente, dopo che altri laboratori la replicarono e, soprattutto, dopo che arrivarono finalmente gli strumenti di imaging in grado di localizzare un equivalente umano. Gross aveva avuto ragione, ma ci vollero una generazione e una nuova tecnologia per risolvere la questione.

L'area che si illuminava con il doppio della luce

Quella nuova tecnologia era la risonanza magnetica funzionale, ed è ciò che mise Kanwisher, McDermott e Chun davanti a quella postazione di lavoro a metà degli anni Novanta. Il loro articolo del 1997, "The fusiform face area: a module in human extrastriate cortex specialized for face perception", riportava un'area di circa un centimetro quadrato sul giro fusiforme inferiore destro che rispondeva con un'intensità circa doppia alle fotografie di volti rispetto a un'ampia varietà di immagini di controllo. L'effetto privilegiava in modo affidabile l'emisfero destro da una persona all'altra, e l'area fusiforme dei volti finì per diventare la regione selettiva per categoria più studiata in assoluto nel cervello umano.

La FFA non se ne sta da sola. Nelle vicinanze, nel flusso ventrale, ci sono altre aree sintonizzate su altre classi di cose, soprattutto l'area paraippocampale dei luoghi, o PPA, che risponde in modo preferenziale a scene e luoghi piuttosto che ai volti. Così il quadro che emerse non era quello di un unico riconoscitore di oggetti universale, ma un piccolo arcipelago di specialisti, ciascuno dedicato in modo preferenziale a una particolare categoria di stimoli, tutti adagiati sulla stessa via ventrale. Si dà semplicemente il caso che i volti abbiano l'isola più evidente e meglio caratterizzata.

Quasi un decennio dopo, i risultati ottenuti nel macaco e nell'uomo furono ricuciti insieme a livello delle singole cellule. Doris Tsao e Winrich Freiwald, che lavoravano con Margaret Livingstone a Harvard, usarono dapprima la fMRI in macachi svegli per localizzare aree distinte dei volti nella corteccia inferotemporale, poi calarono microelettrodi di tungsteno in ciascuna area e registrarono singoli neuroni. Il loro rapporto del 2006 su Science trovò qualcosa di sorprendente, ovvero che quasi ogni neurone registrato all'interno di un'area dei volti era selettivo per i volti. Era la scoperta di Gross in grande e organizzata, non più cellule sparse ma raggruppamenti densi e dedicati. Lavori successivi dei laboratori di Tsao e Freiwald descrissero una gerarchia che attraversa le diverse aree, con le aree posteriori che rappresentano i volti in modo specifico per una determinata visuale, legato a una particolare angolazione, e le aree più anteriori che si avvicinano a una rappresentazione dell'identità invariante rispetto alla visuale, la stessa persona riconosciuta a prescindere da come è girata la testa.

Quando il sistema va in tilt

Uno dei modi più efficaci per scoprire che cosa fa una regione cerebrale è studiare che cosa succede quando smette di funzionare, e per il riconoscimento dei volti questa firma clinica ha un nome e una lunga storia. Nel 1947, Joachim Bodamer, un neurologo tedesco della clinica neurologica di Tubinga, pubblicò una serie di casi di tre pazienti che avevano perso la capacità di riconoscere i volti dopo un danno alla regione occipitotemporale del cervello. Coniò il termine prosopagnosia, dal greco prosopon per volto e agnosia per non-conoscenza, una non-conoscenza dei volti.

Ciò che rendeva questi casi così importanti era la loro selettività. I pazienti riuscivano ancora a vedere perfettamente, riuscivano ancora a riconoscere gli oggetti, spesso riuscivano ancora a identificare una persona dalla voce, dall'andatura o da un cappello caratteristico, eppure il volto in sé, come via verso l'identità, era semplicemente indisponibile. Un volto familiare, anche quello di un coniuge, veniva registrato come un volto ma non come quello di qualcuno in particolare. Questa fu la prima prova clinica che il riconoscimento dei volti potesse venire meno per conto proprio mentre il resto della vista rimaneva intatto, che è esattamente ciò che ti aspetteresti se il cervello dedicasse ai volti una macchina specializzata anziché trattarli come qualsiasi altro oggetto.

La prosopagnosia esiste in due forme. La forma acquisita segue un danno al giro fusiforme destro e alla corteccia occipitotemporale inferiore circostante, di solito dopo un ictus, un trauma cranico o l'asportazione chirurgica di tessuto, ed è relativamente rara. La forma evolutiva è diversa, una difficoltà a riconoscere i volti che dura tutta la vita in persone che hanno vista normale, intelligenza normale e nessuna lesione cerebrale rilevabile. È molto più comune di quanto la maggior parte delle persone immagini, con una prevalenza stimata intorno al 2 per cento della popolazione, il che significa che è probabile che qualcuno che conosci faccia silenziosamente fatica con i volti e abbia semplicemente imparato a compensare. Brad Duchaine e Ken Nakayama sistematizzarono i criteri diagnostici per questa forma evolutiva nel corso degli anni Duemila, fornendo ai ricercatori un modo affidabile per identificarla e studiarla.

Una mappa dei passaggi dal volto al nome

La neuroscienza ci dice dove si trova la macchina, ma la psicologia fornisce una mappa complementare dei passaggi che la mente compie tra il vedere un volto e il sapere di chi è. L'impalcatura standard venne da Vicki Bruce e Andy Young, il cui articolo del 1986 "Understanding face recognition" sul British Journal of Psychology proponeva una sequenza di stadi cognitivi che organizza ancora il settore.

Nel loro modello, il riconoscimento comincia con la codifica strutturale, che costruisce una descrizione del volto che stai guardando indipendente dal punto di vista, astratta dalla particolare angolazione e illuminazione. Quella descrizione viene poi confrontata con le unità di riconoscimento dei volti, modelli memorizzati per ciascun volto familiare, per stabilire se hai già visto questa persona. Se viene trovata una corrispondenza, i nodi di identità della persona collegano il volto riconosciuto a tutto ciò che sai di quell'individuo, il suo lavoro, dove l'hai incontrato, il fatto che ti deve dei soldi. Solo nell'ultimo stadio il recupero del nome legge il nome vero e proprio. Questa architettura a stadi spiega in modo elegante un'esperienza quotidiana frustrante, il momento in cui riconosci un volto e ti ricordi esattamente chi è quella persona eppure non riesci a far emergere il suo nome. Nel modello di Bruce e Young si tratta di un'interruzione netta all'ultimo passaggio, identità recuperata ma lo stadio del nome che non scatta.

L'area dei volti è fatta per i volti o per la competenza?

Una buona scoperta scientifica genera una buona discussione, e la FFA ne ha prodotta una che va avanti da quando l'articolo del 1997 è arrivato. La domanda è ingannevolmente semplice. L'area fusiforme dei volti è davvero un modulo per i volti, oppure è una regione che è semplicemente diventata bravissima con i volti perché i volti sono ciò che tutti pratichiamo di più?

La spiegazione modularista, difesa da Kanwisher e dai suoi colleghi, sostiene che la FFA sia un modulo corticale specifico per i volti, il prodotto di una specializzazione evoluta o plasmata dall'esperienza per la particolare classe di stimoli dei volti. Secondo questa visione, i volti sono speciali e il cervello li tratta come tali con un hardware dedicato. La spiegazione concorrente basata sulla competenza, difesa da Isabel Gauthier e dai suoi colleghi alla Vanderbilt, propone invece che la FFA sia specializzata nella discriminazione fine all'interno di qualsiasi categoria che tu abbia praticato abbastanza da diventarne esperto, distinguere una cosa quasi identica da un'altra. I volti, secondo questa visione, sono semplicemente la competenza universale, l'unica categoria che ogni essere umano dotato di vista pratica intensamente fin dall'infanzia, perciò la regione appare selettiva per i volti perché i volti sono il problema di discriminazione che tutti hanno padroneggiato. Il dibattito non è stato risolto in modo netto, e la posizione onesta è che entrambe le spiegazioni colgono qualcosa di reale a proposito di una regione che è al tempo stesso affidabilmente più reattiva ai volti e chiaramente plasmata dall'esperienza. Questa tensione autentica e tuttora aperta è di per sé un segno che la FFA resta un problema di ricerca attivo anziché un caso chiuso.

Punti chiave

Riconoscere un volto si appoggia al flusso del cosa ventrale, una catena di elaborazione che va dalla corteccia visiva primaria (V1) attraverso V2, V4 e fino alla corteccia inferotemporale, dove ogni stadio aggiunge complessità finché interi oggetti e categorie apprese arrivano a essere rappresentati; Mishkin e Ungerleider distinsero questo flusso del cosa da un flusso del dove dorsale nel 1982. Charles Gross registrò i primi neuroni selettivi per i volti nella corteccia inferotemporale del macaco all'inizio degli anni Settanta in un clima di scetticismo, una scoperta confermata quando Kanwisher, McDermott e Chun localizzarono l'area fusiforme dei volti umana con la fMRI nel 1997, un'area dell'emisfero destro che si attiva con un'intensità circa doppia per i volti rispetto ad altre immagini, e di nuovo quando Tsao e Freiwald dimostrarono nel 2006 che quasi ogni neurone all'interno di un'area dei volti del macaco è selettivo per i volti, con una gerarchia che va dall'identità specifica per la visuale a quella invariante rispetto alla visuale. La prosopagnosia, denominata da Bodamer nel 1947 e suddivisa in una rara forma acquisita e in una forma evolutiva che colpisce circa il 2 per cento delle persone, dimostra che il riconoscimento dei volti può crollare mentre il resto della vista sopravvive, e il modello di Bruce e Young del 1986 mappa i passaggi cognitivi dalla codifica strutturale al recupero del nome, mentre il dibattito irrisolto tra la spiegazione modularista di Kanwisher e quella basata sulla competenza di Gauthier mantiene davvero aperta la questione del perché questa regione esista.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free