脳はいかにしてAIを生んだか（そしてノーベル賞を受賞したか）

1958年、ハーバード大学医学大学院の暗い部屋で、二人の若い科学者が我慢の限界に近づいていた。デイヴィッド・ヒューベルとトルステン・ウィーセルは、麻酔をかけた猫の一次視覚野にタングステン製の微小電極を刺し込み、何時間ものあいだスクリーンに光の点を点滅させて、そのニューロンを発火させようとしていた。細胞の電気的スパイクをクリック音に変える音声モニターは、頑として沈黙したままだった。そのとき、ガラス製のスライドがプロジェクターに引っかかった。それを揺すって外そうとすると、スライドの暗い縁がスクリーンを横切り、モニターが突然、澄んだリズミカルなパチパチという音を立て始めた。そのニューロンは光の点などまったく気にしていなかった。気にしていたのは、特定の角度に傾いた、動く輪郭だったのである。

この偶然のパチパチ音は、現代神経科学の、そして信じがたいことに現代人工知能の、礎となった音の一つである。その猫の視覚野から、2020年代の画像分類器やチャットボットへとつながる線は、直接的でたどることができる。そして2024年10月、スウェーデン王立科学アカデミーは、人工ニューラルネットワークの二人の先駆者にノーベル物理学賞を授与することで、その線を公式に認めた。本稿はその線をたどる。脳がどのように輪郭を見るかについての一つの発見が、いかにして機械の一族を丸ごと生み出したのか、そして脳とそれに着想を得たシステムとの関係が、よく見ると実際にどのようなものなのかを。

猫の視覚野と「見ること」の構造

1958年から1965年にかけて、ハーバード大学医学大学院で研究したヒューベルとウィーセルは、一次視覚野、すなわちV1あるいはブロードマン17野とも呼ばれる領域のニューロンの応答特性を地図化した。麻酔をかけた猫やサルから記録をとると、個々のニューロンが驚くほど気難しいことがわかった。彼らが単純細胞と呼んだある種の細胞は、特定の向きの輪郭が網膜の特定の位置に落ちたときにのみ発火した。輪郭を傾けたり少しずらしたりすると、その細胞は黙り込んだ。もう一方の複雑細胞と呼ばれる細胞は、同じように向きには選択的でありながら、位置についてははるかに寛容で、ある領域のどこであっても、正しい角度の輪郭に反応した。

決定的な洞察は、個々の細胞そのものではなく、細胞どうしの関係にあった。ヒューベルとウィーセルは一つの階層構造を提唱した。そこでは、精密で位置に固定された単純細胞が、より寛容な複雑細胞へと入力を送り込み、その結果、システムは、特徴が正確にどこにあるかにかかわらずそれを認識する表現を築き上げる。底辺には特異性があり、その上に層を重ねることで不変性が築かれていく。視覚世界が皮質処理の各段階でどのように分解され再構成されるのかを示したことで、二人は1981年のノーベル生理学・医学賞をロジャー・スペリーと分かち合った。視覚とは特徴検出器の階層構造であり、各段階が下の段階の出力を組み合わせてより抽象的でより安定したものをつくり上げていく、というこの考えは、計算機の歴史において最も実り豊かな着想の一つであることがやがて判明する。

視覚野からシリコンへ：ネオコグニトロン

その階層構造を設計図として真剣に受け止めた最初の技術者が、福島邦彦だった。東京のNHK放送科学基礎研究所で研究していた彼は、1980年に、その野心をあっさりと宣言する題名の論文を学術誌『Biological Cybernetics』に発表した。「ネオコグニトロン：位置ずれに影響されないパターン認識機構のための自己組織化ニューラルネットワークモデル」。「位置ずれに影響されない」という言葉は、ヒューベルとウィーセルを機械の言語に翻訳したものである。なぜなら、位置不変性、すなわち形がどこに現れてもそれを認識する能力こそ、まさに複雑細胞が解決していた問題だったからだ。

ネオコグニトロンは、視覚野をほとんど一層ずつ模倣した。福島がS細胞層と呼ぶ層を交互に配置した。これはヒューベル・ウィーセルの単純細胞を直接モデルにし、局所的な特徴に同調させたものである。そしてC細胞層を、これは複雑細胞をモデルにし、位置についてプーリングを行うことで小さなずれへの寛容性を与えたものである。これらを深い階層に積み重ねたネットワークは、手書き数字を認識するよう訓練された。それは機能し、そして深遠なことを実証した。脳の配線図の上に築かれた機械が、現実の知覚課題を解けるということを。それに欠けていたのは、自らの結合の強さをデータから効率的に学習する方法だった。後にやってきてすべてを変えることになる、その部品である。

畳み込みの革命：ルカンからAlexNetへ

その欠けていた部品をまとめ上げたのが、ヤン・ルカンの手だった。1989年、ベル研究所でルカンは、手書き数字を読むための最初の実用的な畳み込みニューラルネットワークを発表した。この設計は後に洗練され、1998年にLeNet-5と名づけられた。畳み込みネットワークは、福島の脳に着想を得た骨格、すなわち特徴検出層とプーリング層の交互配置を保ちつつ、それを誤差逆伝播法で訓練した。これは、出力から誤差を後ろ向きにたどることでネットワーク内のすべての結合を効率的に調整するアルゴリズムである。LeNetは銀行小切手の数字を読むために商業展開され、世界で現実の経済的な仕事を行った最初のニューラルネットワークの一つとなった。

その手法は20年以上ものあいだ、利用可能なデータと計算能力に制約され、沸騰しきらずにくすぶり続けた。そして2012年、トロント大学のアレックス・クリジェフスキー、イリヤ・サツケヴァー、ジェフリー・ヒントンが、まもなく世界中でAlexNetとして知られることになる8層の畳み込みネットワークを、ImageNet大規模視覚認識チャレンジに投入した。これは写真を千のカテゴリーに分類する競技会である。AlexNetは単に勝っただけではない。あらゆる競合手法に恥をかかせるほど大差で勝った。およそ1年のうちに、コンピュータビジョンの分野全体が古い手作りの技術を捨て去り、深層学習へと舵を切った。系譜は途切れていなかった。AlexNetの層状の特徴検出器は、1958年のあの猫の単純細胞と複雑細胞の曾孫であり、規模を拡大され、百万枚の画像で訓練されたものだった。

もう一つの系譜：ホップフィールド、エネルギー、そして記憶

畳み込みの系譜は物語の半分にすぎず、2024年のノーベル賞はもう半分も称えた。1982年、物理学者ジョン・ホップフィールドは、「創発的な集団的計算能力を備えたニューラルネットワークと物理系」と題する論文を『Proceedings of the National Academy of Sciences』に発表した。ホップフィールドは生物学からではなく統計物理学からニューラルネットワークに切り込み、いまではホップフィールドネットワークと呼ばれるものを導入した。これは、結合がエネルギー地形を定義する再帰型のモデルである。破損した、あるいは部分的なパターンをネットワークに提示すると、その力学は、谷に落ち着くボールのように坂を転がり下り、記憶された記憶へとたどり着く。これは連想記憶、すなわち断片から全体を取り出す能力、ひとくさりの旋律が曲全体を呼び戻すような能力の、数学的理論だった。

ホップフィールドのエネルギーに基づく定式化は、ジェフリー・ヒントンが拡張した一つの研究プログラムの種をまいた。ヒントンは、同じ物理原理の上に築かれた確率的ネットワークであるボルツマンマシンを通じて、さらには2000年代半ばに多層構造への関心を再燃させる助けとなった深層信念ネットワークを通じて、それを発展させた。この系譜の射程は驚くほど広くなった。トランスフォーマー、すなわちアシシュ・ヴァスワニらが2017年の論文「Attention Is All You Need」でグーグルにおいて発表し、いまや大規模言語モデルの内部にある原動力となっているこの構造は、その自己注意機構が再帰型ではなく順伝播型の設計であるとはいえ、同じく学習された連想と創発的な集団的計算というこの世界から派生している。ホップフィールドは記憶の物理学を、ヒントンは学習の仕組みを提供し、両者のあいだでこの分野の二大系譜を形づくった。

2024年10月8日：物理学がニューラルネットワークを我がものとする

2024年10月8日、スウェーデン王立科学アカデミーは、ノーベル物理学賞を、プリンストン大学名誉教授のジョン・J・ホップフィールドと、トロント大学およびかつてグーグルに在籍したジェフリー・E・ヒントンに共同で授与した。「人工ニューラルネットワークによる機械学習を可能にする基礎的な発見と発明に対して」である。機械学習の背後にある科学への物理学賞は多くの観察者を驚かせたが、この選択は内的に一貫していた。ホップフィールドの貢献は物理系の統計力学に根ざしており、彼が切り開いたエネルギーに基づく系譜は、ヒントンのボルツマンマシン、彼が擁護した誤差逆伝播法、そして彼の深層信念ネットワークを通じて、いまや日常生活を作り変えつつある技術へと、きれいな弧を描いて走っている。この賞は、脳から、そして物理学から借りた抽象概念が、当該分野の最高の栄誉に値する知的成果になったという、この学問分野からの承認だった。

機械が脳を予測し始めたとき

ここまで、影響は一方向に、神経科学から工学へと流れてきた。しかし、ここ十年で最も驚くべき展開の一つは、影響が逆方向に流れ始めたこと、すなわち人工ネットワークが、それに着想を与えた脳を理解するための道具へと変わったことである。2014年、MITのダニエル・ヤミンスとジェームズ・ディカルロは、30年前にホップフィールドの研究を載せたのと同じ学術誌に研究を発表した。彼らは深層畳み込みネットワークを物体認識で訓練し、次に、訓練されたネットワーク内部の活性化を、物体が認識される高次の視覚領域であるマカクザルの下側頭皮質から実際に記録した単一ニューロンの記録と比較した。ネットワークは、それ以前のどのモデルよりも現実のニューラル発火率をうまく予測した。そして示唆に富むことに、最も深く、最も分類に関連する層が、高次の視覚ニューロンに最もよく一致した。脳を模倣するために築かれたシステムが、一巡して、その脳の最良のモデルになったのである。

報酬の研究においても、並行する収束が現れた。1997年、ヴォルフラム・シュルツ、ピーター・ダヤン、リード・モンタギューは『Science』に論文を発表し、中脳の、すなわち腹側被蓋野と黒質緻密部のドーパミンニューロンが、単に快感を信号として送るのではなく、報酬予測誤差、すなわち動物が期待した報酬と実際に受け取った報酬とのあいだの差を符号化していることを示した。その生物学的信号は、リチャード・サットンとアンドリュー・バルトが開発した強化学習理論の核心にある時間差学習信号に、驚くほどよく似ていることが判明した。機械が試行錯誤から学ぶようにするためにコンピュータ科学者が考案した概念が、ほとんど一文字一文字、脳の化学のなかに書き込まれているのが見つかったのだ。同じ原理は後に、2013年のアタリをプレイするDQNから、2016年のAlphaGo、2017年のAlphaZeroにいたるまで、ディープマインドの深層強化学習システムの原動力となった。

有益な戒め：ネットワークはニューロンではない

これだけの共鳴があっても、今日の人工ネットワークが生物学的な脳の現実的なモデルであると結論づけるのは重大な誤りであろう。そしてこれはおそらく、この議論全体のなかで最も重大な誤解である。本物のニューロンは、人工ユニットの滑らかで連続的な活性化ではなく、離散的な電気的スパイクで通信する。生物学的な学習は勾配の誤差逆伝播を使っているようには見えず、脳が実際にどのようにシナプスを調整しているのかは未解決の問いのままである。一個のニューロンの樹状突起は、典型的な人工ユニットが計算する単純な重みつき総和よりもはるかに豊かな計算を行う。そしてその規模には謙虚にならざるをえない。ヒトの大脳皮質は860億個ほどのニューロンを擁し、それらはおよそ100兆のシナプスを通じて配線され、いかなる現代の人工ネットワークも再現していない細胞機構のなかに埋め込まれている。その借用は着想であって複製ではなく、誠実な立場は、脳とそれが種をまいた機械はいとこどうしであり、ヒューベルとウィーセルの階層構造に共通の祖先をもちながら、その生物学において深く異なっている、というものだ。

そしてここはまた、神経科学と工学が新しいハードウェアの上で最も直接的に収束しつつある場所でもある。ニューロモルフィック・コンピューティング、あるいは脳に着想を得たコンピューティングと呼ばれることもある分野は、神経の力学を従来のグラフィックスプロセッサ上でエミュレートするのではなく、チップそのもののなかで模倣するシリコンを構築する。先進的な取り組みには、インテルのLoihi、IBMのTrueNorth、スタンフォードのクワベナ・ボアヘンによるNeurogridシステム、そしてマンチェスター大学のスティーブ・ファーバーのもとで構築されたスパイキングネットワーク機械SpiNNakerなどがある。それぞれが、シリコンのなかで非常に高いエネルギー効率でスパイキングニューラルネットワークを動かす。いずれもまだGPUベースの深層学習に取って代わってはいないが、それらは、脳の設計原理と実用的なAIハードウェアが最も直接的に出会う最前線を示している。

要点

脳がいかにしてAIを生んだかという物語は、たどることのできる一本の系譜である。それは1958年、引っかかったプロジェクターのスライドから始まる。そのとき、ヒューベルとウィーセルは、視覚野のニューロンが層状の特徴検出器であり、単純細胞が位置に寛容な複雑細胞へと入力を送り込んでいることを発見した。この構造を、福島は1980年にネオコグニトロンへと写し取り、ルカンは1989年に畳み込みネットワークとして訓練可能にし、そして2012年にAlexNetがImageNetで勝利したとき、それは現代という時代へと爆発的に広がった。物理学から生まれた第二の系譜は、1982年のホップフィールドによる連想記憶のエネルギーに基づくモデルから、ヒントンのボルツマンマシンと深層信念ネットワークを通じて、今日の言語モデルの背後にあるトランスフォーマーへと走っている。そしてこの二つの系譜が合わさって、ホップフィールドとヒントンに2024年のノーベル物理学賞をもたらした。いまや影響は双方向に流れている。深層ネットワークがマカクザルの下側頭皮質における現実の発火を予測し、シュルツ、ダヤン、モンタギューが発見したドーパミンの報酬予測誤差が、強化学習理論をほとんど正確に映し出している。とはいえ、その類似には確固たる限界がある。なぜなら、本物のニューロンはスパイクを発し、誤差逆伝播なしで学習し、樹状突起のなかで計算を行い、いかなる人工ネットワークも再現していない回路のなかに860億個ぎっしりと詰め込まれているからだ。だからこそ、脳とAIについての最も正確な記述は、同一性ではなく、深く生産的な家族的類似なのである。

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free