AI は思考している、それとも何も考えていないか?この問いを考えると、人間の脳の仕組みへの理解も深まる!

2.

 ここに至るまでの進歩を手短に説明しておく。1980 年代に、認知心理学者とコンピュータ科学者からなる小規模な研究チームが、機械による思考( thinking in a machine )のシミュレーションを試みた。中でも有名なのは、後にカリフォルニア大学サンディエゴ校( U.C. San Diego )で研究チームを結成することになる、デイビッド・ルメルハート( David Rumelhart )、ジェフリー・ヒントン( Geoffrey Hinton )、ジェームズ・マクレランド( James McClelland )の 3 人である。彼らは、脳をニューロンがパターンに従って活性化し、それが他のニューロン群の活性化を次々と引き起こす広大なネットワークであると考えた。このパターンの一連の活動こそが思考である。脳はニューロン間の接続の強さを変えることで学習する。3 人の研究成果でもっとも重要なのは、このプロセスを模倣し、人工ニューラルネットワークを構築し、勾配降下法( gradient descent )と呼ばれる単純なアルゴリズムを適用して予測の精度を高めたことである。勾配降下法は元々は関数の最小値を見つけるための最適化手法である。山頂から谷へと進むハイカーを考えるとわかりやすいのだが、結局のところ、下るための道を見つけるための最も単純な戦略は、一歩一歩が下り坂になるように心がけることである。このようなアルゴリズムを大規模ネットワークに用いることが、いわゆるディープラーニングである。

 AI 分野の研究者の多くは、ニューラルネットワークを模した AI が現実世界のタスクに十分対応できるほど洗練されているとは考えていなかった。しかし、ニューラルネットワークの規模が大きくなるにつれて、これまで解決できなかった問題が解決されるようになった。様々な論文が書かれるようになった。手書きの数字を識別したり、画像内の顔を認識したりする技術の開発を研究する者が増えた。しかし、ディープラーニングアルゴリズムが基礎となるデータを理解して課題を詳細まで理解するようになり、それらの研究は時代遅れと思われるようになった。ディープラーニングアルゴリズムは、次々と課題を解決できるようになった。音声認識、翻訳、画像キャプション作成、ボードゲーム、さらにはタンパク質の構造の予測などである。

 今日の主要な AI モデルは、次トークン予測( next-token prediction )と呼ばれる手法を用いて、インターネット上の膨大なデータを使ってトレーニングされている。AI モデルは次に何が現れるかを推測し、その推測と実際に表示されるものを比較することで学習する。推測が間違っていると、ニューロン間の接続強度が変化する。これが勾配降下法である。最終的に、AI モデルはテキスト予測が非常に得意になる。その結果、物事を本質まで理解しているように見える。しかし、本当に理解しているか否かは見解が分かれるところである。ある研究グループは人間の脳の仕組みの秘密を解き明かそうとしていた。彼らの AI モデルが人間の脳と同じレベルに成長すると、人間の脳が持つ知能が必要と思われる行動をとるようになった。彼らは探し求めていたものを見つけられたとしている。

 AI を理解したとするこの勝ち誇ったような主張は、単純化されすぎている。当然ながら異論・反論が多い。反論で秀逸なのは、テッド・チャン( Ted Chiang )の記事である。2023 年初頭に本誌に掲載された。タイトルは、「 ChatGPT は Web のぼやけた JPEG 画像である( ChatGPT Is a Blurry JPEG of the Web )」となっていた。彼はどちらかというと AI に否定的である。そもそも ChatGPT は Web 上に転がっている情報しか知らないと主張する。インターネット全体を AI に学習させる。すると、写真を何度も繰り返しコピーしたような不鮮明なものを吐き出すようになる。しかし、AI のプログラムは洗練されており、ユーザーを騙すのに十分な能力を備えている。言語学者のエミリー・M・ベンダー( Emily M. Bender )と社会学者のアレックス・ハンナ( Alex Hanna )の共著「 The AI Con (訳者注:con は詐欺の意)」が今年の春に出版された。同様の主張がなされている。ベンダーは大規模言語モデル( LLM )を「確率的オウム( stochastic parrots )」と表現したことで有名である。「大規模言語モデルは、何も理解しないし、理解できないし、理解するつもりもない」と作家タイラー・オースティン・ハーパー( Tyler Austin Harper )は、アトランティック誌( The Atlantic )の書評欄で主張する。「大規模言語モデルは思考によってではなく、膨大な情報を学習したことを生かして統計的にどの語彙が他の語彙に続く可能性が高いかを推測して文章を生成しているだけである」。ハーパーは技術面から批判するだけでなく、道徳的な側面からの批判もしている。AI は超富裕層をより豊かにしているという。また、気候変動を加速させるほどのエネルギーを消費し、多くの労働者を苦境に陥らせているという。彼は「 AI 産業の基盤は詐欺である」と結論付ける。

 さて、AI に対する道徳的な批判は、技術的な批判よりも強いのかもしれない。「確率的オウムという批判は、いずれ廃れていくだろう」と、ハーバード大学の認知科学者のサミュエル・J・ガーシュマン( Samuel J. Gershman )は私に語る。彼は決して AI の熱狂的な支持者ではないことを言い添えたい。「大規模言語モデルは、私たちの多くが実現できるとは思っていなかったことを実現している。このことを否定できるのは、筋金入りの AI 懐疑論者だけである」。プリンストン大学の認知神経科学者ジョナサン・コーエン( Jonathan Cohen )は AI の限界を強調するが、場合によっては大規模言語モデルは人間の脳の最大かつ最も重要な部分の 1 つを反映しているかもしれないと主張する。「大まかに言えば、大規模言語モデルのディープランニング・メカニズムは大脳新皮質( neocortex )の神経回路網から着想を得て考案されたものである。両者は階層的な情報処理という共通のメカニズムを持っている」とコーエンは言う。人間の大脳新皮質は、体全体の割合から言うと、他の動物よりもはるかに大きい。大脳新皮質が最も大きい種は、象、イルカ、ゴリラ、チンパンジー、犬などであるが、これらは最も知能の高い種とされている。

 2003 年に機械学習研究者のエリック・B・バウム( Eric B. Baum )は “ What Is Thought? ”(未邦訳:「思考とは何か?」の意)という本を出版した。ちなみに、私は大学の図書館の書庫で、この本を偶然にも見つけ、タイトルに惹かれたのですぐに読んだ。バウムの主張の要点は、理解とは圧縮であり、圧縮とは理解である( understanding is compression, and compression is understanding )ということである。統計学では、グラフ上の複数の点の意味を理解したい場合、線形回帰( linear regression )分析と呼ばれる手法を使う。複数の点の関係を最も適切な直線で表す手法である。この直線(線形)が最適適合線( line of best fit )である。与えられたデータの根底に規則性がある場合、例えば、靴のサイズと身長をグラフにプロットしている場合などがあるが、最適適合線はそれを効果的に表現し、新しい点がどこに配置されるかを予測できる。大脳新皮質は、聴覚、視覚、嗅覚、触覚等の感覚を総動員して実生活で経験し認識したことを「最適適合線」へと昇華させ、それを活用して予測を行っていると考えられる。何の知識も持たずに妊婦のお腹から放り出された赤ん坊は、与えられたおもちゃを口に持っていき食べれるかどうかを推測しようとする。あるいは、食べ物が床に落ちたらどうなるかを推測しようとする。推測や予測が外れると、多くのニューロン間の接続が調整される。時間の経過とともに、ニューロン間の接続はデータの規則性を捉え始める。やがて現実世界の圧縮モデルが形成される。

 AI などの中の人工ニューラルネットワーク( artificial neural networks )は、人間のニューラルネットワークと同様の方法で経験を圧縮する。オープンソースの AI モデルの最高峰の 1 つとされるディープシーク( DeepSeek )は、小説を書いたり、医療診断をしたり、数十の言語でネイティブスピーカーのように話したりすることができる。それは、かなりのテラ数の膨大な規模のデータを使って次トークン予測を繰り返し行った。しかし、その AI モデルをノートパソコンにダウンロードすると、膨大なデータは 600 分の 1 まで圧縮されている。ノートパソコンに収まるように圧縮された、オンラインバージョンの凝縮版である。テッド・チャンが ChatGPT の初期バージョンを「 Web のぼやけた JPEG 画像」と評したのは正しかったわけだが、あくまで私見であるが、圧縮度が高くなることによって AI モデルはますます賢くなっている気がする。チャンが記事の中に書いているのだが、zip ファイルを使って数百万もの算術例が詰まったテキストファイルを圧縮することは不可能である。算出プログラム( calculator program )を書く必要があるという。「テキストを理解することで、最大限の圧縮を実現できる」と彼は書いている。おそらく、大規模言語モデルはまさにそれを実現し始めている段階にある。