II. 魔法の森( The Magic Forest )
分かりやすさを優先して猫と犬を見分ける例で説明したが、同じ原理がテキスト、コンピュータコード、音楽、映像、その他どんなものにも当てはまる。理論的には、私たちはインターネット全体、そして手に入れることができる他のどんなデータでも、それを正確に見分けるように訓練した木を作ることができる。私たちは、デジタル形式のあらゆるものを認識できる、そのような木が集まった魔法の森( magic forest )を作ることもできる。
ただし、落とし穴がある。猫や犬などの正確にラベル付けされた画像を収集することは可能である。しかし、人間が生み出した情報のほとんどは、それほど明確ではないし、全てに正確なラベルが付けられているわけでもない。そんなことは不可能である。必要なのは、正確なラベルを使えない場合に、どうやって対処するかということである。正確なラベルが無くても正確に見分けることを可能にする特性が存在している。それが近接性( proximity )である。インターネット上で、特定の一連のテキストが特定の種類の画像の近くに配置される傾向があるとする。これは、そのテキストと画像が関連していることを示唆している。これが、近接性があるということである。
オンライン上のあらゆるものが、他のあらゆるものとどのように繋がっているかを推定するために近接性を使ったらどうなるだろうか?言い換えれば、正確にラベル付けされた画像がない場合に近接性を使ったらどうなるだろうか?関連性があるものごとに 1 本の木が必要であるから、膨大な数の木々が遠くまで広がり、それぞれが独立しているが地下の絡み合う根や菌糸網によって繋がっている大きな森を想像することができる。
「猫( cat )」という単語は、インターネット上の猫の画像の近くにしばしば現れるが、(比喩的な意味での)森の木々は、広範な関連性を感じ取ることができる。猫の画像を識別できる木は、猫のミーム( meme )が喚起するものを識別できる木や猫のベッドを識別できる木などと根で繋がっているかもしれない。あるいは、猫に愛されるおもちゃ、猫の病気、あるいは猫愛好家を識別できる木と繋がっているかもしれない。多くの AI 研究者が、より「マルチモーダル( multimodal )」な AI モデルを作ろうと努力している。マルチモーダルとは、画像、テキスト、動画を 1 つのツールで関連付けることである。これにより、AI は、少なくともそれらが訓練で使うデータに組み込まれている限り、多様なものの間の繋がりに、人間がするのと同じ方法で注目することができるようになる。このような森の他の場所では、レゲエ音楽を識別できる木、コミックファンのためのウェブサイトを運営するコードを識別できる木、肺の腫瘍の放射線画像を識別できる木などがあるかもしれない。十分な広さの森があれば、理論的には、デジタル形式で表現されるものであれば、十分な数の例があれば、あらゆるものを識別することが可能である。
大きな森を育てるのは途方もない大仕事である。長い時間がかかり、驚くほどの資源が必要となる。GPT のバージョンが 3 から 4 に変わることは、まったく新しい 「訓練サイク
( training cycle)」に入ることを意味する。その中で新しい森が成長し、より多くのものをより高い信頼性で認識できるようになる。この森はどのくらいの大きさなのか?どんなものが含まれるのか?それを事前に知ることはできない。
木々は明示的なものではないので、木々のリストを作ることはできない。それらは暗黙のうちに、大きな流れの中に存在している。今回の説明において、木々は大きな空間に広がっている。木を見ようと思うと、何十億、何百億本もあることに気づくことになる。訓練した結果、木々の生い茂った森がどのくらい大きくなるのかを説明することはできない。