En una habitación a oscuras de la Facultad de Medicina de Harvard, en 1958, dos jóvenes científicos estaban perdiendo la paciencia. David Hubel y Torsten Wiesel habían introducido un microelectrodo de tungsteno en la corteza visual primaria de un gato anestesiado y, durante horas, habían proyectado puntos de luz sobre una pantalla intentando que la neurona se activara. El monitor de audio que convertía los impulsos eléctricos de la célula en chasquidos permanecía obstinadamente en silencio. Entonces una placa de vidrio se atascó en el proyector. Mientras la movían para liberarla, el borde oscuro de la placa barrió la pantalla, y el monitor estalló de pronto en un crepitar limpio y rítmico. A la neurona no le importaban en absoluto los puntos de luz. Le importaba un borde en movimiento inclinado en un ángulo concreto.
Ese crepitar accidental es uno de los sonidos fundacionales de la neurociencia moderna y, por improbable que parezca, también de la inteligencia artificial moderna. La línea que va desde la corteza visual de aquel gato hasta los clasificadores de imágenes y los chatbots de la década de 2020 es directa y rastreable, y en octubre de 2024 la Real Academia Sueca de Ciencias la certificó al conceder el Premio Nobel de Física a dos pioneros de las redes neuronales artificiales. Este artículo sigue esa línea: cómo un descubrimiento sobre la forma en que el cerebro ve los bordes dio origen a toda una familia de máquinas, y cuál es realmente la relación entre los cerebros y los sistemas que inspiraron, una vez que se mira de cerca.
La corteza del gato y la arquitectura de la visión
Entre 1958 y 1965, trabajando en la Facultad de Medicina de Harvard, Hubel y Wiesel cartografiaron las propiedades de respuesta de las neuronas de la corteza visual primaria, la región conocida también como V1 o área 17 de Brodmann. Al registrar la actividad en gatos y monos anestesiados, descubrieron que las neuronas individuales eran extraordinariamente quisquillosas. Algunas células, a las que llamaron células simples, se activaban solo cuando un borde de una orientación específica caía en un punto concreto de la retina; bastaba con inclinar el borde o desplazarlo un poco para que la célula enmudeciera. Otras células, las células complejas, eran igual de selectivas a la orientación, pero mucho más tolerantes con la posición, y respondían a un borde del ángulo adecuado en cualquier punto de una región.
La idea decisiva no eran las células individuales, sino la relación entre ellas. Hubel y Wiesel propusieron una jerarquía en la que las células simples, precisas y fijas a una posición, alimentan a las células complejas, más tolerantes, de modo que el sistema construye una representación capaz de reconocer un rasgo sin importar dónde se sitúe exactamente. Especificidad en la base, e invariancia construida por encima mediante capas. Por mostrar cómo el mundo visual se descompone y se vuelve a ensamblar en etapas del procesamiento cortical, ambos compartieron el Premio Nobel de Fisiología o Medicina de 1981 con Roger Sperry. La idea de que la visión es una jerarquía de detectores de rasgos organizados en capas, en la que cada etapa combina las salidas de la anterior para formar algo más abstracto y más estable, resultaría ser una de las ideas más fértiles de la historia de la computación.
De la corteza al silicio: el Neocognitrón
El primer ingeniero que tomó en serio esa jerarquía como modelo a seguir fue Kunihiko Fukushima. Trabajando en los Laboratorios de Investigación Científica de Radiodifusión de la NHK en Tokio, publicó en 1980 un modelo en la revista Biological Cybernetics con un título que anunciaba su ambición sin rodeos: "Neocognitrón: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones no afectado por el desplazamiento de posición". La expresión "no afectado por el desplazamiento de posición" es Hubel y Wiesel traducidos al lenguaje de las máquinas, porque la invariancia de posición, la capacidad de reconocer una forma sin importar dónde aparezca, era exactamente el problema que resolvían las células complejas.
El Neocognitrón copiaba la corteza casi capa por capa. Alternaba lo que Fukushima llamaba capas de células S, modeladas directamente a partir de las células simples de Hubel y Wiesel y ajustadas a rasgos locales, con capas de células C, modeladas a partir de las células complejas y que agrupaban la información a lo largo de la posición para otorgar tolerancia a pequeños desplazamientos. Apiladas en una jerarquía profunda, la red se entrenaba para reconocer dígitos manuscritos. Funcionaba, y demostraba algo profundo: una máquina construida sobre el esquema de conexiones del cerebro podía resolver una tarea perceptiva real. Lo que le faltaba era una forma eficiente de aprender por sí misma la intensidad de sus conexiones a partir de los datos, la pieza que llegaría más tarde y lo cambiaría todo.
La revolución convolucional: de LeCun a AlexNet
Esa pieza que faltaba se reunió en manos de Yann LeCun. En los Laboratorios Bell, en 1989, LeCun publicó la primera red neuronal convolucional práctica para leer dígitos manuscritos, un diseño que más tarde se refinó y recibió el nombre de LeNet-5 en 1998. La red convolucional conservaba el esqueleto inspirado en el cerebro de Fukushima, la alternancia de capas detectoras de rasgos y capas de agrupamiento, pero lo entrenaba con retropropagación, un algoritmo que ajusta de manera eficiente cada conexión de la red rastreando los errores hacia atrás desde la salida. LeNet se implementó comercialmente para leer los dígitos de los cheques bancarios, una de las primeras redes neuronales que realizaron un trabajo económico real en el mundo.
Durante más de dos décadas el enfoque se mantuvo a fuego lento sin llegar a hervir, limitado por los datos y la capacidad de cómputo disponibles. Entonces, en 2012, Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton, de la Universidad de Toronto, presentaron una red convolucional de ocho capas, pronto conocida universalmente como AlexNet, al ImageNet Large Scale Visual Recognition Challenge, un concurso para clasificar fotografías en mil categorías. AlexNet no se limitó a ganar; ganó por un margen tan amplio que dejó en evidencia a todos los demás métodos en competición. En aproximadamente un año, todo el campo de la visión por computadora abandonó sus antiguas técnicas diseñadas a mano y se volcó al aprendizaje profundo. El linaje permanecía ininterrumpido: los detectores de rasgos por capas de AlexNet eran los bisnietos de las células simples y complejas de aquel gato de 1958, escalados y entrenados sobre un millón de imágenes.
La otra tradición: Hopfield, energía y memoria
La línea convolucional es solo la mitad de la historia, y el Nobel de 2024 honró también la otra mitad. En 1982, el físico John Hopfield publicó un artículo en los Proceedings of the National Academy of Sciences titulado "Redes neuronales y sistemas físicos con capacidades computacionales colectivas emergentes". Hopfield llegó a las redes neuronales desde la física estadística y no desde la biología, e introdujo lo que hoy se conoce como la red de Hopfield, un modelo recurrente en el que las conexiones definen un paisaje de energía. Si se presenta a la red un patrón dañado o parcial, su dinámica desciende cuesta abajo, como una bola que se asienta en un valle, hasta alcanzar una memoria almacenada. Esta era una teoría matemática de la memoria asociativa, la capacidad de recuperar un todo a partir de un fragmento, del mismo modo en que un retazo de melodía puede traer de vuelta una canción entera.
El planteamiento de Hopfield basado en la energía dio origen a un programa de investigación que Geoffrey Hinton extendió a través de la máquina de Boltzmann, una red probabilística construida sobre principios físicos similares, y de ahí a las redes de creencia profunda que ayudaron a reavivar el interés por las arquitecturas de muchas capas a mediados de la década de 2000. El alcance de esa tradición llegó a ser notablemente amplio. El transformador, la arquitectura publicada por Ashish Vaswani y sus colegas en Google en el artículo de 2017 "Attention Is All You Need" y hoy el motor que impulsa los grandes modelos de lenguaje, desciende de ese mismo mundo de asociaciones aprendidas y computación colectiva emergente, aunque su mecanismo de autoatención es un diseño de propagación hacia adelante y no uno recurrente. Hopfield aportó la física de la memoria, Hinton aportó la maquinaria del aprendizaje, y entre ambos dieron forma a los dos grandes linajes del campo.
8 de octubre de 2024: la física reclama la red neuronal
El 8 de octubre de 2024, la Real Academia Sueca de Ciencias concedió el Premio Nobel de Física conjuntamente a John J. Hopfield, profesor emérito de la Universidad de Princeton, y a Geoffrey E. Hinton, de la Universidad de Toronto y antes de Google, "por descubrimientos e invenciones fundamentales que hacen posible el aprendizaje automático con redes neuronales artificiales". Un premio de física para la ciencia que hay detrás del aprendizaje automático sorprendió a muchos observadores, pero la elección era coherente en sí misma: la aportación de Hopfield estaba arraigada en la mecánica estadística de los sistemas físicos, y la tradición basada en la energía que él abrió recorre un arco limpio que pasa por la máquina de Boltzmann de Hinton, por su defensa de la retropropagación y por sus redes de creencia profunda, hasta llegar a la tecnología que hoy transforma la vida cotidiana. El galardón fue el reconocimiento de la disciplina de que las abstracciones tomadas prestadas de los cerebros y de la física se habían convertido en un logro intelectual digno de su máxima distinción.
Cuando las máquinas empezaron a predecir el cerebro
Hasta aquí la influencia ha fluido en un solo sentido, desde la neurociencia hacia la ingeniería. Pero uno de los avances más llamativos de la última década es esa influencia que fluye de vuelta, con las redes artificiales convertidas en herramientas para entender el cerebro que las inspiró. En 2014, Daniel Yamins y James DiCarlo, en el MIT, publicaron un estudio en la misma revista que había acogido el trabajo de Hopfield tres décadas antes. Entrenaron redes convolucionales profundas en el reconocimiento de objetos y luego compararon las activaciones del interior de esas redes entrenadas con registros reales de neuronas individuales de la corteza inferotemporal de monos macacos, una región visual de alto nivel donde se reconocen los objetos. Las redes predijeron las tasas reales de disparo neuronal mejor que cualquier modelo anterior y, de manera reveladora, las capas más profundas y más relevantes para la categorización fueron las que mejor coincidieron con las neuronas visuales de alto nivel. Un sistema construido para imitar el cerebro había dado la vuelta completa hasta convertirse en su mejor modelo.
Una convergencia paralela apareció en el estudio de la recompensa. En 1997, Wolfram Schultz, Peter Dayan y Read Montague publicaron un artículo en Science que mostraba que las neuronas dopaminérgicas del mesencéfalo, en el área tegmental ventral y la sustancia negra pars compacta, no se limitan a señalar el placer, sino que codifican un error de predicción de recompensa, la diferencia entre la recompensa que un animal esperaba y la que recibió. Resultó que esa señal biológica se parecía notablemente a la señal de aprendizaje por diferencia temporal que está en el corazón de la teoría del aprendizaje por refuerzo desarrollada por Richard Sutton y Andrew Barto. Un concepto inventado por científicos de la computación para que las máquinas aprendieran por ensayo y error se encontró, casi línea por línea, escrito en la química del cerebro. Esos mismos principios impulsaron más tarde los sistemas de aprendizaje por refuerzo profundo de DeepMind, desde la DQN que jugaba al Atari en 2013 hasta AlphaGo en 2016 y AlphaZero en 2017.
Una advertencia útil: las redes no son neuronas
A pesar de todas estas resonancias, sería un error grave concluir que las redes artificiales de hoy son modelos realistas de los cerebros biológicos, y este es quizá el malentendido más trascendente de toda la conversación. Las neuronas reales se comunican mediante impulsos eléctricos discretos, no mediante las activaciones suaves y continuas de una unidad artificial. El aprendizaje biológico no parece usar retropropagación por gradiente, y cómo ajusta realmente el cerebro sus sinapsis sigue siendo una pregunta abierta. Las dendritas de una sola neurona realizan cálculos mucho más ricos que la simple suma ponderada que computa una unidad artificial típica. Y la escala resulta humillante: la corteza humana alberga del orden de 86.000 millones de neuronas conectadas mediante unos 100 billones de sinapsis, integradas en una maquinaria celular que ninguna red artificial actual reproduce. El préstamo fue una inspiración, no una copia, y la postura honesta es que los cerebros y las máquinas que ellos sembraron son primos, que comparten un antepasado en la jerarquía de Hubel y Wiesel mientras difieren profundamente en su biología.
Aquí es también donde la neurociencia y la ingeniería convergen de forma más directa en torno a un nuevo hardware. Un campo a veces llamado computación neuromórfica o computación inspirada en el cerebro construye silicio que imita la dinámica neuronal en el propio chip, en lugar de emularla en procesadores gráficos convencionales. Entre los esfuerzos más destacados están Loihi de Intel, TrueNorth de IBM, el sistema Neurogrid de Kwabena Boahen en Stanford, y SpiNNaker, la máquina de redes de impulsos construida bajo la dirección de Steve Furber en la Universidad de Mánchester. Cada una ejecuta redes neuronales de impulsos en silicio con una eficiencia energética muy alta. Ninguna ha desplazado todavía al aprendizaje profundo basado en GPU, pero marcan la frontera donde los principios de diseño del cerebro y el hardware práctico de IA se encuentran de la manera más directa.
Puntos clave
La historia de cómo el cerebro inspiró la IA es un único linaje rastreable que comienza con una placa de proyector atascada en 1958, cuando Hubel y Wiesel descubrieron que las neuronas de la corteza visual son detectores de rasgos organizados en capas, con células simples que alimentan a células complejas tolerantes a la posición, una arquitectura que Fukushima plasmó en el Neocognitrón en 1980, que LeCun hizo entrenable como red convolucional en 1989, y que estalló en la era moderna cuando AlexNet ganó ImageNet en 2012. Una segunda tradición, nacida de la física, va desde el modelo de memoria asociativa basado en la energía que Hopfield propuso en 1982, pasando por las máquinas de Boltzmann y las redes de creencia profunda de Hinton, hasta los transformadores que hay detrás de los modelos de lenguaje actuales, y estos dos linajes juntos valieron a Hopfield y Hinton el Premio Nobel de Física de 2024. La influencia corre ahora en ambas direcciones, ya que las redes profundas predicen el disparo real en la corteza inferotemporal del macaco y el error de predicción de recompensa de la dopamina descubierto por Schultz, Dayan y Montague refleja casi con exactitud la teoría del aprendizaje por refuerzo. Sin embargo, el parecido tiene límites firmes, porque las neuronas reales emiten impulsos, aprenden sin retropropagación y computan en sus dendritas, agrupadas en 86.000 millones dentro de circuitos que ninguna red artificial reproduce, razón por la cual la descripción más precisa de los cerebros y la IA no es la identidad, sino un parecido familiar profundo y fecundo.
Learn more with Mindoria
Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.
Download Free