AI は思考している、それとも何も考えていないか?この問いを考えると、人間の脳の仕組みへの理解も深まる!

3.

 コンピュータプログラムが実際に理解し、思考すると想像することを忌々しいと感じたり不快に思う者は少なくない。私たちは通常、思考を意識的なものとして概念化している。誰もがイメージするのは、ジェイムス・ジョイス( James Joyce:「ユリシーズ」を書いた)の小説の登場人物の心の中での独白や、マルセル・プルースト( Marcel Proust:「失われた時を求めて」を書いた)の小説の登場人物が空想に耽って様々な記憶を巡らすことなどである。あるいは、思考とは推論することだと捉えられることも多い。つまり、問題を段階的に解決することである。AI に関する議論では、これらの異なる種類の思考が混同されていることが多い。それが話をややこしくしているところがある。ChatGPT は明らかに思考していない、という主張がある。そう考える理由は、ChatGPT は明らかにプルースト風の空想をしていないからである。一方、ChatGPT は明らかに思考していると主張する者もいる。そう考える理由は、ChatGPT は生身の人間よりもロジックパズル( logic puzzles:与えられた文章や数字のヒントから、論理的に矛盾なく正解を導き出すパズル)をうまく解くことができるからである。

 もっと微妙なことが起こっている。私は ChatGPT に内面があるとは信じていないが、それでも ChatGPT は自分が何を話しているのかを知っていると感じている。理解とは、まさしく何が起こっているかを把握することであるが、ほとんど無意識の活動である。そのため、思考の一形態なのだが、著しく過小評価されている。インディアナ大学( Indiana University )教授で認知科学( cognitive science )および比較文学( comparative literature )の大家であるダグラス・ホフスタッター( Douglas Hofstadter )も主張しているのだが、認知とは認識であるとよく言われる。ホフスタッターは、1980 年に心と意識に関する著書を出した。それで有名になった。好評で、ピューリッツァー賞も受賞した。タイトルは「ゲーデル、エッシャー、バッハ―あるいは不思議の環( Gödel, Escher, Bach: An Eternal Golden Braid )」である。数十年にわたる研究を通じて確立されたホフスタッターの理論では、「〜として見ること ( seeing as )」が思考の本質であるという。ある色の斑点は車として見える。別の色の斑点はキーホルダーとして見える。「 A 」という文字が見えれば、どんなフォントで書かれていても、手書きで汚くても認識できる。ホフスタッターは、同じプロセスがより抽象的な種類の知覚の根底にあると主張する。チェスの名人が盤面を観察する時、長年の研鑽の成果を生かして、状況を読み解こうとする。それで、白のビショップが狙い目であるとか、おそらくドローで終わりそう、などと考える。誰しも川に渦があるのを見れば、渡る際の危険な兆候であると見なす。自分が参加している会議は、まるで裸の王様のような状況だと見なす。私のもうすぐ 2 歳になる息子は、午前 10 時頃にベビーカーで散歩に連れ出されると、クロワッサンをゲットするチャンスかもしれないと認識する。それで、それが欲しいと言い出す。ホフスタッターにとって、それはまさに知性の真髄である。

 ホフスタッターは AI 批判論者( A.I. deflationists )の先駆者の 1 人である。私自身の AI に対する懐疑心は彼の考えに根ざしている。彼は AI 研究の大半は現実の思考とはほとんど関係がないと書いている。それは 2000 年代のことで、私は大学生であったが、私は彼の考えに共感することが多かった。例外も時々あった。彼は UCSD (カリフォルニア大学サンディエゴ校)の研究チームの研究に注目していた。また、あまり知られていないフィンランド系アメリカ人の認知科学者ペンティ・カネルヴァ( Pentti Kanerva )の研究を称賛していた。カネルヴァは高次元空間の数学における特異な性質に気づいた。高次元空間では、任意の 2 点は非常に離れている可能性がある。しかし、直感に反して 2 点のそれぞれの周りには巨大な近傍点の雲が存在するため、「十分に近づけば( close enough )」簡単にそこにたどり着くことができる。このことはカネルヴァに記憶の仕組みを思い出させた。1988 年に出版された” Sparse Distributed Memory ”(未邦訳、「まばらに分散された記憶」の意)という著書の中で、カネルヴァは思考( thoughts )、感覚( sensations )、そして記憶( recollections )は高次元空間の座標として表現できると主張した。脳は、そのようなものを保存するのに最適なハードウェアのように思える。あらゆる記憶には、一種のアドレスのようなものがある。何かを思い出そうとする時には、いくつものニューロン群が活性化されてそこにたどり着く。新たな経験をすると、新しいニューロン群の活性化が引き起こされ、新しいアドレスが示される。2 つのアドレスがある時、それらが多くの点で全く異なっていても、必ず似ている点もあるはずである。ある知覚や記憶が、近くにある他の記憶を呼び起こすのである。干し草の香りはサマーキャンプの記憶を呼び起こす。ベートーベンの交響曲第 5 番の最初の 3 つの音符は、4 番目の音符を思い起こさせる。チェス盤上で見たことないような局面が繰り広げられていても、以前の古い棋譜を思い出させる。過去のすべての棋譜を思い出すわけではない。目の前の局面と類似点がある棋譜だけを思い出す。

 ホフスタッターは、カネルヴァが「〜として見ること ( seeing as )」を実行する機械のようなものを描写していることに気づいた。「ペンティ・カネルヴァによる人間の記憶のモデル化は私にとって啓示だった」と、彼はカネルヴァの例の著書の序文に寄稿している。「それは私が初めて出会った研究であり、脳が全体としてどのように機能するかを理解するという深淵な目標の実現性が高まったと感じさせてくれる」。ジョイスの小説であれ、プルーストの小説であれ、ロジックパズル( logic puzzles:与えられた文章や数字のヒントから、論理的に矛盾なく正解を導き出すパズル)であれ、あらゆる思考は、適切なタイミングで心に浮かぶ関連する事柄に依存している。それこそが、自分がどのような状況に置かれているかを理解する手段なのである。

 やがてカネルヴァの著書の人気は下火になり、ホフスタッターの名声も徐々に薄れていった。 最近では、ホフスタッターの名前を目にするのは稀である。彼は、ときどき AI システムを批判する文書等を出している。2018 年に私は彼がグーグル翻訳( Google Translate )や同種のテクノロジーについて書いた文書を読んだ。「このテクノロジーには依然として何か深く欠けているものがある。それは「理解( understanding )」という一言で表せる」と彼は書いている。しかし、2023 年にリリースされた GPT-4 は、ホフスタッターに転向のきっかけをもたらした。「この AI システムが為すことのいくつかには、本当に驚かされる」と、彼は先日語った。「ほんの 10 年前には考えられなかったことである」。最も頑固な AI 批判論者でさえ、もはや批判する気にはなれないのかもしれない。専門家と同じように翻訳( translate )し、類推( analogies )し、即応し( extemporize )、一般化( generalize )できるプログラムが既に存在している。もはや AI が理解していないとは言いきれないのではないか。「巷の AI は思考と非常によく似たことをしている」と彼は言う。「AI は思考していると言えるだろう。ただし人間の脳とは違う方法である」。

 大規模言語モデル( LLM )の中枢には「〜として見ること ( seeing as )」を実行する機械があるようである。各単語は、高次元空間における座標(ベクトル)を示す一連の数値で表現される。GPT-4 では、1 つの単語のベクトルは数千の次元を持ち、それらが他のすべての単語との類似性と相違性を表す。大規模言語モデルは訓練中に予測エラーが発生するたびに単語の座標を微調整する。テキスト内で一緒に出現する全ての単語は、空間内で互いに近くなるようになる。これにより、用法( usages )と意味( meanings )の非常に緻密な表現が生成され、類推( analogy )は幾何学の問題となる。典型的な例で言うと、「パリ( Paris )」の単語ベクトルから「フランス( France )」を減算し、「イタリア( Itary 」を加算すると、最も近い他のベクトルは「ローマ( Roma )」になる。大規模言語モデルは、画像に含まれる内容、雰囲気、さらには人々の表情までをエンコードすることで、画像を「ベクトル化( vectorize )」することができる。読み込んだ画像を特定のスタイルで再描画したり、それについての説明文を書いたりすることができる。そのレベルは驚くほど高い。私の友人のマックスが遊び場で水の出ないスプリンクラーの件で ChatGPT に助けを求めた時、ただテキストを返したわけではない。マックスがプロンプト欄に書いたテキストに添えた配管類の写真は、即座にその写真の最も重要な特徴を捉えたベクトルに圧縮された。このベクトルは、近くの単語や概念を呼び出すためのアドレスとして機能した。ChatGPT は対処すべき状況を把握するにつれて、これらのアイデアは次々と他のアイデアを呼び起こした。ChatGPT はそれらのアイデアを「念頭に置いて( in mind )」回答を構成していたのである。

 数カ月前、私はアンスロピック( Anthropic )の研究者トレントン・ブリッケン( Trenton Bricken )のインタビュー記事を読んだ。彼は同僚と共同で、同社の AI モデルであるクロード( Claude )の内部を探ってきたという。現時点では、彼らの研究論文は査読を受けていないし、また、科学誌にも掲載されたこともない。彼の研究チームは、クロードが何かを言おうとする時に活性化する人工ニューロン群、つまり「機能( features )」の集合体を特定したという。機能( features )は概念に関するボリューム調整つまみのようなもので、ボリュームを上げるとクロードはそれ以外のことについてはほとんど話さなくなったという。ちなみに、一種の思考制御実験( thought-control experiment )も行われたのだが、ゴールデンゲートブリッジを表す機能( features )のボリュームが上げられた。そして、あるユーザーがクロードにチョコレートケーキのレシピを尋ねると、提案された材料には「乾燥した霧 1/4 カップと温かい海水 1 カップ( 1/4 cup dry fog and 1 cup warm seawater )」が含まれていたという。インタビューの中でブリッケンは、グーグルが 2017 年に発表した深層学習モデルであるトランスフォーマー( Transformer )のアーキテクチャについて言及した。この学習モデルは、人工ニューラルネットワークを構築するためのものであるが秀逸であるという。実際、現在の主要な AI モデルのほとんどの基盤はこれを模したものである。ちなみに ChatGPT の「T」は「 Transformer 」の頭文字である。彼の主張によれば、トランスフォーマーのアーキテクチャの中心にある数学は、数十年前に先述のペンティ・カネルヴァ( Pentti Kanerva )が著書「 Sparse Distributed Memory 」の中で提案したモデルに非常に近いという。