Como o Cérebro Inspirou a IA (e Ganhou um Prêmio Nobel)

Em uma sala escura da Harvard Medical School, em 1958, dois jovens cientistas estavam ficando sem paciência. David Hubel e Torsten Wiesel haviam inserido um microeletrodo de tungstênio no córtex visual primário de um gato anestesiado e, por horas, projetaram pontos de luz em uma tela tentando fazer o neurônio disparar. O monitor de áudio que transformava os picos elétricos da célula em cliques permanecia teimosamente em silêncio. Então, uma lâmina de vidro emperrou no projetor. Enquanto a soltavam com pequenos movimentos, a borda escura da lâmina varreu a tela, e o monitor de repente irrompeu em uma crepitação limpa e ritmada. O neurônio não se importava nem um pouco com pontos de luz. Ele se importava com uma borda em movimento inclinada em um ângulo específico.

Essa crepitação acidental é um dos sons fundadores da neurociência moderna e, improvavelmente, da inteligência artificial moderna. A linha que vai do córtex visual daquele gato até os classificadores de imagens e os chatbots dos anos 2020 é direta e rastreável e, em outubro de 2024, a Real Academia Sueca de Ciências a certificou ao conceder o Prêmio Nobel de Física a dois pioneiros das redes neurais artificiais. Este artigo segue essa linha: como uma descoberta sobre o modo como o cérebro enxerga bordas semeou toda uma família de máquinas, e qual é, de fato, a relação entre os cérebros e os sistemas que eles inspiraram, quando olhamos de perto.

O córtex do gato e a arquitetura de enxergar

Entre 1958 e 1965, trabalhando na Harvard Medical School, Hubel e Wiesel mapearam as propriedades de resposta dos neurônios no córtex visual primário, a região também conhecida como V1 ou área 17 de Brodmann. Registrando a atividade de gatos e macacos anestesiados, eles descobriram que neurônios individuais eram extremamente exigentes. Algumas células, que eles chamaram de células simples, disparavam apenas quando uma borda de orientação específica caía em um ponto específico da retina; inclinar a borda ou deslocá-la um pouco fazia a célula silenciar. Outras células, as células complexas, eram igualmente seletivas quanto à orientação, mas muito mais tolerantes em relação à posição, respondendo a uma borda no ângulo certo em qualquer lugar dentro de uma região.

A percepção crucial não estava nas células individuais, mas na relação entre elas. Hubel e Wiesel propuseram uma hierarquia, na qual as células simples, precisas e travadas em posição, alimentam as células complexas, mais tolerantes, de modo que o sistema constrói uma representação que reconhece uma característica independentemente de onde exatamente ela se encontra. Especificidade na base, invariância construída em camadas acima dela. Por mostrarem como o mundo visual é decomposto e remontado em estágios do processamento cortical, os dois dividiram o Prêmio Nobel de Fisiologia ou Medicina de 1981 com Roger Sperry. A ideia de que a visão é uma hierarquia em camadas de detectores de características, cada estágio combinando as saídas do estágio anterior em algo mais abstrato e mais estável, viria a ser uma das ideias mais férteis da história da computação.

Do córtex ao silício: o Neocognitron

O primeiro engenheiro a levar essa hierarquia a sério como modelo foi Kunihiko Fukushima. Trabalhando nos NHK Broadcasting Science Research Laboratories, em Tóquio, ele publicou um modelo na revista Biological Cybernetics em 1980, com um título que anunciava sua ambição de forma direta: "Neocognitron: um modelo de rede neural auto-organizada para um mecanismo de reconhecimento de padrões não afetado por deslocamento de posição". A expressão "não afetado por deslocamento de posição" é Hubel e Wiesel traduzidos para a linguagem das máquinas, porque a invariância de posição, a capacidade de reconhecer uma forma não importa onde ela apareça, era exatamente o problema que as células complexas resolviam.

O Neocognitron copiou o córtex quase camada por camada. Ele alternava o que Fukushima chamou de camadas de células S, modeladas diretamente nas células simples de Hubel e Wiesel e ajustadas para características locais, com camadas de células C, modeladas nas células complexas e agrupando informações por posição para conceder tolerância a pequenos deslocamentos. Empilhada em uma hierarquia profunda, a rede foi treinada para reconhecer dígitos escritos à mão. Funcionou, e demonstrou algo profundo: uma máquina construída sobre o diagrama de conexões do cérebro podia resolver uma tarefa perceptiva real. O que faltava era uma maneira eficiente de aprender, a partir dos dados, suas próprias forças de conexão, a peça que chegaria mais tarde e mudaria tudo.

A revolução convolucional: de LeCun à AlexNet

Essa peça que faltava ganhou forma nas mãos de Yann LeCun. Nos Bell Labs, em 1989, LeCun publicou a primeira rede neural convolucional prática para leitura de dígitos escritos à mão, um projeto depois refinado e batizado de LeNet-5 em 1998. A rede convolucional manteve o esqueleto inspirado no cérebro de Fukushima, a alternância de camadas de detecção de características e camadas de agrupamento, mas a treinou com retropropagação, um algoritmo que ajusta com eficiência cada conexão da rede ao rastrear os erros de trás para frente, a partir da saída. A LeNet foi implantada comercialmente para ler os dígitos de cheques bancários, uma das primeiras redes neurais a realizar um trabalho econômico real no mundo.

Por mais de duas décadas, a abordagem ficou no fogo brando sem transbordar, limitada pelos dados e pelo poder de computação disponíveis. Então, em 2012, Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, da Universidade de Toronto, inscreveram uma rede convolucional de oito camadas, logo conhecida universalmente como AlexNet, no ImageNet Large Scale Visual Recognition Challenge, uma competição para classificar fotografias em mil categorias. A AlexNet não apenas venceu; venceu por uma margem tão ampla que envergonhou todos os métodos concorrentes. Em cerca de um ano, todo o campo da visão computacional abandonou suas antigas técnicas feitas à mão e migrou para o aprendizado profundo. A linhagem permaneceu ininterrupta: os detectores de características em camadas da AlexNet eram os bisnetos das células simples e complexas daquele gato de 1958, ampliados e treinados com um milhão de imagens.

A outra tradição: Hopfield, energia e memória

A linha convolucional é apenas metade da história, e o Nobel de 2024 honrou a outra metade também. Em 1982, o físico John Hopfield publicou um artigo nos Proceedings of the National Academy of Sciences intitulado "Redes neurais e sistemas físicos com capacidades computacionais coletivas emergentes". Hopfield chegou às redes neurais a partir da física estatística, e não da biologia, e introduziu o que hoje se chama de rede de Hopfield, um modelo recorrente em que as conexões definem uma paisagem de energia. Apresente à rede um padrão corrompido ou parcial, e sua dinâmica rola ladeira abaixo, como uma bola que se acomoda em um vale, até alcançar uma memória armazenada. Essa era uma teoria matemática da memória associativa, a capacidade de recuperar um todo a partir de um fragmento, do mesmo modo que um trecho de melodia pode trazer de volta uma canção inteira.

A formulação de Hopfield baseada em energia semeou um programa de pesquisa que Geoffrey Hinton estendeu por meio da máquina de Boltzmann, uma rede probabilística construída sobre princípios físicos semelhantes, e prosseguiu pelas redes de crença profunda que ajudaram a reacender o interesse por arquiteturas de muitas camadas em meados dos anos 2000. O alcance dessa tradição tornou-se notavelmente amplo. O transformer, a arquitetura publicada por Ashish Vaswani e colegas na Google no artigo de 2017 "Attention Is All You Need" e hoje o motor dentro dos grandes modelos de linguagem, descende desse mesmo mundo de associações aprendidas e computação coletiva emergente, ainda que seu mecanismo de autoatenção seja um projeto de propagação direta, e não recorrente. Hopfield forneceu a física da memória, Hinton forneceu o maquinário do aprendizado e, entre os dois, moldaram as duas grandes linhagens do campo.

8 de outubro de 2024: a física reivindica a rede neural

Em 8 de outubro de 2024, a Real Academia Sueca de Ciências concedeu o Prêmio Nobel de Física conjuntamente a John J. Hopfield, professor emérito da Universidade de Princeton, e a Geoffrey E. Hinton, da Universidade de Toronto e anteriormente da Google, "por descobertas e invenções fundamentais que possibilitam o aprendizado de máquina com redes neurais artificiais". Um prêmio de física pela ciência por trás do aprendizado de máquina surpreendeu muitos observadores, mas a escolha era internamente consistente: a contribuição de Hopfield estava enraizada na mecânica estatística dos sistemas físicos, e a tradição baseada em energia que ele abriu corre em um arco limpo, atravessando a máquina de Boltzmann de Hinton, sua defesa da retropropagação e suas redes de crença profunda, até a tecnologia que agora remodela a vida cotidiana. O prêmio foi o reconhecimento, por parte da disciplina, de que abstrações tomadas emprestadas dos cérebros e da física haviam se tornado uma conquista intelectual digna de sua mais alta honraria.

Quando as máquinas começaram a prever o cérebro

Até aqui, a influência fluiu em uma única direção, da neurociência para a engenharia. Mas um dos desenvolvimentos mais marcantes da última década é o fluxo da influência de volta, com as redes artificiais se transformando em ferramentas para compreender o cérebro que as inspirou. Em 2014, Daniel Yamins e James DiCarlo, do MIT, publicaram um estudo na mesma revista que havia veiculado o trabalho de Hopfield três décadas antes. Eles treinaram redes convolucionais profundas no reconhecimento de objetos e, em seguida, compararam as ativações dentro dessas redes treinadas com registros reais de neurônios individuais do córtex inferotemporal de macacos rhesus, uma região visual de alto nível onde os objetos são reconhecidos. As redes previram as taxas de disparo neural reais melhor do que qualquer modelo anterior e, de modo revelador, as camadas mais profundas e mais relevantes para a categorização correspondiam melhor aos neurônios visuais de alto nível. Um sistema construído para imitar o cérebro havia dado a volta e se tornado seu melhor modelo.

Uma convergência paralela apareceu no estudo da recompensa. Em 1997, Wolfram Schultz, Peter Dayan e Read Montague publicaram um artigo na Science mostrando que os neurônios dopaminérgicos no mesencéfalo, na área tegmental ventral e na substância negra parte compacta, não sinalizam simplesmente prazer, mas codificam um erro de previsão de recompensa, a diferença entre a recompensa que um animal esperava e a recompensa que recebeu. Esse sinal biológico acabou se parecendo notavelmente com o sinal de aprendizado por diferença temporal no centro da teoria de aprendizado por reforço desenvolvida por Richard Sutton e Andrew Barto. Um conceito inventado por cientistas da computação para fazer máquinas aprenderem por tentativa e erro foi encontrado, quase linha por linha, escrito na química do cérebro. Os mesmos princípios mais tarde impulsionaram os sistemas de aprendizado por reforço profundo da DeepMind, do DQN que jogava Atari em 2013 ao AlphaGo em 2016 e ao AlphaZero em 2017.

Uma ressalva útil: redes não são neurônios

Apesar de todas essas ressonâncias, seria um erro grave concluir que as redes artificiais de hoje são modelos realistas dos cérebros biológicos, e essa talvez seja a concepção equivocada mais importante de toda a conversa. Neurônios reais se comunicam por meio de picos elétricos discretos, e não pelas ativações suaves e contínuas de uma unidade artificial. O aprendizado biológico não parece usar a retropropagação de gradiente, e a forma como o cérebro de fato ajusta suas sinapses continua sendo uma questão em aberto. Os dendritos de um único neurônio realizam cálculos muito mais ricos do que a simples soma ponderada que uma unidade artificial típica calcula. E a escala é humilhante: o córtex humano abriga cerca de 86 bilhões de neurônios conectados por aproximadamente 100 trilhões de sinapses, imersos em um maquinário celular que nenhuma rede artificial atual reproduz. O empréstimo foi uma inspiração, não uma cópia, e a posição honesta é que cérebros e as máquinas que eles semearam são primos, compartilhando um ancestral na hierarquia de Hubel e Wiesel, mas diferindo profundamente em sua biologia.

É também aqui que a neurociência e a engenharia estão convergindo de forma mais direta em direção a um novo hardware. Um campo às vezes chamado de computação neuromórfica ou inspirada no cérebro constrói silício que imita a dinâmica neural no próprio chip, em vez de emulá-la em processadores gráficos convencionais. Os principais esforços incluem o Loihi, da Intel, o TrueNorth, da IBM, o sistema Neurogrid, de Kwabena Boahen, em Stanford, e o SpiNNaker, a máquina de redes de picos construída sob a liderança de Steve Furber na Universidade de Manchester. Cada um executa redes neurais de picos em silício com altíssima eficiência energética. Nenhum deles ainda deslocou o aprendizado profundo baseado em GPU, mas eles marcam a fronteira onde os princípios de projeto do cérebro e o hardware prático de IA se encontram de forma mais direta.

Principais Conclusões

A história de como o cérebro inspirou a IA é uma única linhagem rastreável que começa com uma lâmina de projetor emperrada em 1958, quando Hubel e Wiesel descobriram que os neurônios do córtex visual são detectores de características em camadas, com células simples alimentando células complexas tolerantes à posição, uma arquitetura que Fukushima converteu no Neocognitron em 1980, que LeCun tornou treinável como a rede convolucional em 1989, e que explodiu na era moderna quando a AlexNet venceu o ImageNet em 2012. Uma segunda tradição, nascida da física, vai do modelo de memória associativa baseado em energia de Hopfield, de 1982, passando pelas máquinas de Boltzmann e pelas redes de crença profunda de Hinton, em direção aos transformers por trás dos modelos de linguagem de hoje, e essas duas linhagens juntas renderam a Hopfield e Hinton o Prêmio Nobel de Física de 2024. A influência agora corre em ambas as direções, à medida que redes profundas preveem o disparo real no córtex inferotemporal de macacos rhesus e o erro de previsão de recompensa da dopamina descoberto por Schultz, Dayan e Montague espelha a teoria de aprendizado por reforço quase com exatidão. Ainda assim, a semelhança tem limites firmes, porque neurônios reais disparam picos, aprendem sem retropropagação e computam em seus dendritos, agrupados em 86 bilhões dentro de circuitos que nenhuma rede artificial reproduz, e é por isso que a descrição mais precisa dos cérebros e da IA não é a de identidade, mas a de uma profunda e produtiva semelhança de família.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free