Cómo tu cerebro reconoce un rostro entre la multitud

Es hacia 1996, ya entrada la noche, en el McGovern Institute del MIT. Nancy Kanwisher está sentada frente a una estación de trabajo revisando las primeras resonancias magnéticas funcionales analizadas de un único sujeto, y Josh McDermott y Marvin Chun se apretujan junto a ella para mirar la superficie cortical renderizada que brilla en la pantalla. En la cara inferior del hemisferio derecho, un pequeño parche de la circunvolución fusiforme, de aproximadamente un centímetro cuadrado, se ilumina con casi el doble de intensidad ante fotografías de rostros que ante fotografías de objetos, manos, casas y rostros desordenados. La señal es tan nítida que no necesita promediarse entre muchas personas para verse. Está ahí mismo, en un solo cerebro, en una sola pantalla.

El artículo llegaría al Journal of Neuroscience al año siguiente bajo el título "The fusiform face area" (El área facial fusiforme), y el parche adquiriría un nombre, la FFA, que el campo sigue usando tres décadas después. Ese único punto brillante plantea la pregunta de la que trata este artículo. De todo el mundo visual que fluye hacia tus ojos, ¿cómo logra el cerebro extraer un rostro, distinguirlo de todos los demás rostros que has visto en tu vida y hacerlo en una fracción de segundo, entre la multitud, con mala luz, desde un ángulo extraño? La respuesta resulta involucrar una línea de montaje específica de regiones corticales, un conjunto dedicado de detectores de rostros y un trastorno poco frecuente que revela para qué sirve todo el sistema.

La línea de montaje visual que construye objetos

Reconocer cualquier cosa por la vista comienza con una larga cadena de procesamiento a lo largo de la parte inferior del cerebro llamada flujo visual cortical ventral. Empieza en la corteza visual primaria (V1) en la parte más posterior de la cabeza, luego avanza hacia adelante a través de las áreas V2 y V4 y finalmente hacia la corteza inferotemporal, normalmente abreviada como IT. Cada estación del trayecto añade una capa de complejidad, de modo que el patrón bruto de luz y oscuridad en la retina se transforma gradualmente en algo que significa un rostro, una taza o un árbol.

V1 trabaja con los ingredientes más básicos, los bordes locales y los parches orientados de contraste que componen cualquier imagen. V2 toma esos fragmentos y construye contornos más complicados, incluidos los contornos ilusorios (bordes que percibes incluso donde físicamente no existe ningún borde) y la separación de una figura respecto de su fondo. V4 combina el procesamiento de la forma con la selectividad para el color. Cuando las señales llegan a la corteza inferotemporal, las neuronas individuales tienen campos receptivos amplios y responden a objetos complejos enteros, a menudo con un tipo útil de estabilidad llamada invariancia, lo que significa que la misma neurona sigue respondiendo al mismo objeto incluso cuando este cambia de posición o de tamaño. La IT es donde el cerebro almacena la selectividad para categorías aprendidas, y es aquí, en lo profundo del lóbulo temporal, donde reside la maquinaria de los rostros.

Esta división del trabajo no era evidente. En un capítulo ya clásico de 1982 titulado "Two cortical visual systems" (Dos sistemas visuales corticales), Mortimer Mishkin y Leslie Ungerleider, que trabajaban en el National Institute of Mental Health, se basaron en experimentos de lesiones selectivas en monos para sostener que la visión se divide en dos flujos paralelos más allá de V1. El flujo del qué ventral, que recorre V2, V4 e IT, transporta la identidad del objeto, qué es una cosa. Un flujo dorsal del dónde separado, que recorre V2 y V5/MT hasta la corteza parietal posterior, transporta la ubicación espacial y guía la acción, dónde está una cosa y cómo alcanzarla. El reconocimiento de rostros es claramente una tarea del flujo del qué.

Las primeras neuronas a las que les importaban los rostros

Mucho antes de que nadie pudiera escanear un cerebro humano vivo, la primera pista de que la corteza contenía especialistas por categorías provino de un único laboratorio y de una recepción profundamente escéptica. Charles Gross, que trabajaba en Princeton desde finales de la década de 1960, introdujo microelectrodos en la corteza inferotemporal de monos macacos y registró neuronas individuales una por una. Algunas de esas neuronas, descubrió, respondían con fuerza y de forma específica a imágenes de manos y a imágenes de rostros, y apenas respondían a otros estímulos.

Cuando aparecieron los primeros artículos a principios de la década de 1970, el campo no los creyó, o al menos no supo qué hacer con ellos. La suposición predominante era que la corteza no contenía neuronas sintonizadas con algo tan específico y de tan alto nivel como un rostro, y un resultado tan sorprendente invitaba a sospechar que se trataba de un artefacto. El hallazgo se volvió canónico solo poco a poco, después de que otros laboratorios lo replicaran y, sobre todo, después de que finalmente llegaran las herramientas de imagen capaces de localizar un equivalente humano. Gross tenía razón, pero hizo falta una generación y una nueva tecnología para zanjar el asunto.

El parche que se encendió con el doble de brillo

Esa nueva tecnología era la resonancia magnética funcional, y es lo que puso a Kanwisher, McDermott y Chun frente a aquella estación de trabajo a mediados de la década de 1990. Su artículo de 1997, "The fusiform face area: a module in human extrastriate cortex specialized for face perception" (El área facial fusiforme: un módulo de la corteza extraestriada humana especializado en la percepción de rostros), informó de un parche de aproximadamente un centímetro cuadrado en la circunvolución fusiforme inferior derecha que respondía con casi el doble de intensidad ante fotografías de rostros que ante una amplia variedad de imágenes de control. El efecto favorecía al hemisferio derecho de forma fiable de una persona a otra, y el área facial fusiforme pasó a convertirse en la región selectiva por categoría más estudiada del cerebro humano.

La FFA no está sola. Cerca, en el flujo ventral, hay otros parches sintonizados con otras clases de cosas, sobre todo el área parahipocampal del lugar, o PPA, que responde preferentemente a escenas y lugares y no a rostros. Así que la imagen que surgió no fue la de un único reconocedor de objetos para todo uso, sino la de un pequeño archipiélago de especialistas, cada uno encargado preferentemente de una categoría concreta de estímulo, todos montados sobre la misma vía ventral. Los rostros sencillamente resultan ser la isla más prominente y mejor caracterizada.

Casi una década después, los hallazgos en macacos y en humanos se ensamblaron a nivel de células individuales. Doris Tsao y Winrich Freiwald, trabajando con Margaret Livingstone en Harvard, primero usaron la resonancia magnética funcional en macacos despiertos para localizar parches faciales discretos en la corteza inferotemporal, y luego introdujeron microelectrodos de tungsteno en cada parche y registraron neuronas individuales. Su informe de 2006 en Science halló algo sorprendente, que casi todas las neuronas que registraron dentro de un parche facial eran selectivas para rostros. Este era el hallazgo de Gross a gran escala y organizado, ya no células dispersas, sino agrupaciones densas y dedicadas. Trabajos posteriores de los laboratorios de Tsao y Freiwald describieron una jerarquía que recorría los parches, con parches posteriores que representan los rostros de un modo específico de la vista, ligado a un ángulo concreto, y parches más anteriores que avanzan hacia una representación de la identidad invariante a la vista, la misma persona reconocida sin importar cómo esté girada la cabeza.

Cuando el sistema deja de funcionar

Una de las formas más poderosas de averiguar qué hace una región del cerebro es estudiar qué ocurre cuando deja de funcionar, y en el caso del reconocimiento de rostros esa firma clínica tiene nombre y una larga historia. En 1947, Joachim Bodamer, un neurólogo alemán de la clínica neurológica de Tubinga, publicó una serie de casos de tres pacientes que habían perdido la capacidad de reconocer rostros tras sufrir daños en la región occipitotemporal del cerebro. Acuñó el término prosopagnosia, del griego prosopon para rostro y agnosia para no-conocimiento, un no-conocimiento de los rostros.

Lo que hacía que estos casos fueran tan importantes era su selectividad. Los pacientes aún podían ver perfectamente, aún podían reconocer objetos, a menudo aún podían identificar a una persona por la voz, el modo de andar o un sombrero distintivo, y sin embargo el rostro en sí, como vía hacia la identidad, sencillamente no estaba disponible. Un rostro familiar, incluso el de un cónyuge, se registraba como un rostro pero no como alguien en particular. Esta fue la primera evidencia clínica de que el reconocimiento de rostros podía fallar por sí solo mientras el resto de la visión permanecía intacto, que es exactamente lo que cabría esperar si el cerebro dedica una maquinaria de uso específico a los rostros en lugar de tratarlos como cualquier otro objeto.

La prosopagnosia se presenta en dos formas. La forma adquirida sigue a daños en la circunvolución fusiforme derecha y en la corteza occipitotemporal inferior circundante, normalmente tras un accidente cerebrovascular, un traumatismo craneal o la extirpación quirúrgica de tejido, y es relativamente poco frecuente. La forma del desarrollo es distinta, una dificultad de por vida para reconocer rostros en personas que tienen una visión normal, una inteligencia normal y ninguna lesión cerebral detectable. Es mucho más común de lo que la mayoría de la gente supone, con una prevalencia estimada en torno al 2 por ciento de la población, lo que significa que es probable que alguien que conoces tenga dificultades en silencio con los rostros y simplemente haya aprendido a compensarlo. Brad Duchaine y Ken Nakayama sistematizaron los criterios diagnósticos para esta forma del desarrollo durante la década de 2000, dando a los investigadores una manera fiable de identificarla y estudiarla.

Un mapa de los pasos del rostro al nombre

La neurociencia nos dice dónde se asienta la maquinaria, pero la psicología aporta un mapa complementario de los pasos que recorre la mente entre ver un rostro y saber de quién es. El andamiaje estándar provino de Vicki Bruce y Andy Young, cuyo artículo de 1986 "Understanding face recognition" (Comprender el reconocimiento de rostros) en el British Journal of Psychology propuso una secuencia de etapas cognitivas que aún hoy organiza el campo.

En su modelo, el reconocimiento comienza con la codificación estructural, que construye una descripción del rostro que estás mirando independiente del punto de vista, abstraída del ángulo y la iluminación concretos. Esa descripción se compara luego con las unidades de reconocimiento de rostros, plantillas almacenadas para cada rostro familiar, para determinar si has visto antes a esa persona. Si se encuentra una coincidencia, los nodos de identidad personal vinculan el rostro reconocido con todo lo que sabes sobre ese individuo, su trabajo, dónde lo conociste, el hecho de que te debe dinero. Solo en la etapa final la recuperación del nombre extrae el nombre real. Esta arquitectura por etapas explica con elegancia una frustrante experiencia cotidiana, ese momento en que reconoces un rostro y recuerdas exactamente quién es alguien y sin embargo no logras evocar su nombre. En el modelo de Bruce y Young eso es una falla clara en el último paso, la identidad recuperada pero la etapa del nombre que no llega a activarse.

¿Está el área facial hecha para los rostros o para la pericia?

Un buen hallazgo científico genera una buena discusión, y la FFA produjo una que se mantiene desde que aterrizó el artículo de 1997. La pregunta es engañosamente simple. ¿Es el área facial fusiforme genuinamente un módulo de rostros, o es una región que simplemente se ha vuelto muy buena con los rostros porque los rostros son aquello que todos practicamos más?

La explicación modular, defendida por Kanwisher y sus colegas, sostiene que la FFA es un módulo cortical específico para rostros, el producto de una especialización evolucionada o moldeada por la experiencia para la clase concreta de estímulo que son los rostros. Según esta visión, los rostros son especiales, y el cerebro los trata como tales con un hardware dedicado. La explicación rival de la pericia, defendida por Isabel Gauthier y sus colegas en Vanderbilt, propone en cambio que la FFA está especializada en la discriminación de grano fino dentro de cualquier categoría que hayas practicado lo suficiente como para convertirte en un experto en ella, distinguir una cosa casi idéntica de otra. Los rostros, según esta visión, son simplemente la pericia universal, la única categoría que todo ser humano con vista practica intensamente desde la infancia, de modo que la región parece selectiva para rostros porque los rostros son el problema de discriminación que todo el mundo ha dominado. El debate no se ha zanjado de forma limpia, y la postura honesta es que ambas explicaciones captan algo real sobre una región que es a la vez fiablemente preferente para rostros y claramente moldeada por la experiencia. Esa tensión genuina y persistente es en sí misma una señal de que la FFA sigue siendo un problema de investigación activo y no un caso cerrado.

Conclusiones clave

Reconocer un rostro recurre al flujo ventral del qué, una cadena de procesamiento que va de la corteza visual primaria (V1) a través de V2, V4 y hasta la corteza inferotemporal, donde cada etapa añade complejidad hasta que quedan representados objetos enteros y categorías aprendidas; Mishkin y Ungerleider distinguieron este flujo del qué de un flujo dorsal del dónde en 1982. Charles Gross registró las primeras neuronas selectivas para rostros en la corteza inferotemporal del macaco a principios de la década de 1970 ante una recepción escéptica, un hallazgo reivindicado cuando Kanwisher, McDermott y Chun localizaron el área facial fusiforme humana con resonancia magnética funcional en 1997, un parche del hemisferio derecho que se activa con casi el doble de intensidad ante los rostros que ante otras imágenes, y de nuevo cuando Tsao y Freiwald demostraron en 2006 que casi todas las neuronas dentro de un parche facial de macaco son selectivas para rostros, con una jerarquía que va de la identidad específica de la vista a la invariante a la vista. La prosopagnosia, nombrada por Bodamer en 1947 y dividida en una forma adquirida poco frecuente y una forma del desarrollo que afecta a alrededor del 2 por ciento de las personas, demuestra que el reconocimiento de rostros puede derrumbarse mientras el resto de la visión sobrevive, y el modelo de Bruce y Young de 1986 traza los pasos cognitivos desde la codificación estructural hasta la recuperación del nombre, mientras que el debate no resuelto entre la explicación modular de Kanwisher y la explicación de la pericia de Gauthier mantiene genuinamente abierta la pregunta de por qué existe esta región.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free