IV. 幻想の木( Phantom Trees )
生成 AI システムと対話する時に何が起こっているのかを、比喩的な方法で説明したい。生成 AI に関与する際には、プロンプト( prompts )を使う(プロンプトとは、必要なことを説明する単語の組み合わせである)。プロンプトに含まれる単語は、森にあるいくつもの木によって認識される。プロンプトに反応していくつもの木が点灯するのを想像するとわかり易い。しかし、個々の木が活性化されることは、木と木の間で起こることほど重要ではない。
チューバ( tuba )を演奏しながらパラシュート( parachute )をつけてヨセミテ( Yosemite )に降り立とうとしている猫( cat )の水彩画( watercolor )を生成 AI システムに依頼したとする。この特殊な単語の組み合わせに関連付けられた画像がインターネット上に存在したことがないため、森にはこの依頼に独力で(他の木の力を借りず)対応できる木は存在していない。ある意味、” watercolor “、” cat “、” parachute “、” tuba “、” Yosemite “の木の間には木の生えていない開けた空き地が広がっている。しかし、これらの単語を識別できる木々を利用し、それらすべてが認識できるものを作り出すことで、AI はその空き地を埋めることができる。つまり、個々のプロンプトに応じてカスタムメイドされた幻想の木( phantom tree )を空き地に呼び出すことができる。
「チューバを演奏しながらパラシュートをつけてヨセミテに降り立とうとしている猫の水彩画」は、なかなか興味深い木である。それを呼び出すには、創造性のようなものが必要である。パラシュートのハーネスを猫にどの様な形で装着させるのか?猫にチューバをどうやって握らせるのか?これらは正解がどこにも存在していない質問である。それでも、AI は何とかして解決策を見つけることができる。プロンプトによって活性化されたすべての木を使って描画するのである。それは統計的なプロセスである。一度に複数のものになる方法を探すのである。AI プログラムが、プロンプトに関連する全ての木々をクロールし、一度にそれらの木々の全てに関連する画像だけを選択するのを想像して欲しい。インターネット上のパラシュートが使用されている画像には、人間が写っているのが一般的である。しかし、猫を人間に似た姿勢にすることで、パラシュートを識別する木を満足させられる可能性が高い。その結果、もっともらしいものが出来上がる。そのアウトプットは完璧ではない。しかし、ほとんど本格的な用途でも問題ないレベルであるし、何よりキュートである。
ある種のアウトプットは経済的な価値がある。例えば、森は、より長いバージョンのドキュメントに似たドキュメントの概要を認識できる可能性がある。つまり、長大なレポートが作成されると同時にエグゼクティブサマリーが出来上がるようなものである。出されるプロンプトに反応して、見たこともないような文書のサマリーが呼び出されるかもしれない。なぜこんなことができるのか?単語と画像は異なることと、それぞれを扱う AI テクノロジーも通常は異なることを認識しておかなければならない。テキストは通常、大規模言語モデルによって生成され、画像は通常、拡散モデル( diffusion model )によって生成される。しかし、そのプロセスはほぼ同じである。単語は他の単語の近くに出現する傾向がある。つまり、単語間の近接性は単語と画像の近接性に似ている。その単語間の近接性のパターンを AI は認識し利用することができる。十分なサンプルがあれば、単語を認識する木々の森には、一連の単語の羅列が文法的に問題無いか、誰が書いた可能性が高いかを認識できる能力が備わっているはずである。その文章はジェーン・オースティンが書いたようであるか?それとも海賊が使うような言葉で書かれているのか?それとも 13 歳の子供が書いたものなのか?
テキストの生成と画像の生成では少し異なる点がある。その理由の 1 つは、テキストは単語を連ねたものであるということにある。望ましい画像を 1 つに決めるのと異なり、たくさんの単語を扱う AI は、プロンプトだけでなく、前に選んだ単語との関連性も加味して、次の単語を何度も何度も選ばなければならない。異なる点は他にもたくさんある。それでも、生成 AI モデルが次の単語を選択する時、その単語は、不確実性 、つまりノイズを取り除いたり加えたりを繰り返した後のもので最適なものと考えることができる。ここは、画像の生成とほぼ同じである。これが、前述のシュールな猫の画像を生成する時とほぼ同じプロセスを、与えられた文書の要約を生成する際に適用できる理由である。テキストを生成する AI の訓練データには、元の文書とそれを要約したものの例が大量に含まれている。それで、AI は要約したような一連のテキストを生成できるようになる。なぜならば、要約すべきデータが訓練の際に目にしたことがないものであっても、要約という作業を認識するようになった木々を活性化して使うことができるからである(これがどれほど上手くいくかは、事前には誰も分からなかった)。
コードを作成しない人にとって、AI がコードを生成できるという事実は驚くべきことのように思えるかもしれない。しかし、コンピュータプログラムはテキストの一種であり、訓練データは豊富にある。プログラムを完成させるには、最終的な目標に到達する前に対処すべき多くの課題があるので、コードの作成が非常に面倒なことがよくある。しかし、過去に多くのコードを作成する者たちが既に何百万ものプログラムを作成している。個々のプログラムは固有の課題に対処するためそれぞれに違いがあるわけで、非常にバリエーションが豊富である。それらは、全てオンライン上に公開されている。猫の身体をパラシュートのハーネスを装着できるように調整する際に起こっていることだが、公開されている既存のプログラムは、出されたプロンプトの要求を満たすために、生成 AI によって適切な変更を加えられる。いくつかの研究によれば、生成 AI はプログラマーの生産性を 20 ~ 30% 以上向上させることができるという。
テキストが 1 次元の単語の羅列で、画像が 2 次元のピクセルのグリッドであるとすれば、動画は時間という軸が加わるので 3 次元と言える。とはいえ、テキストや画像を生成するのと同じ原理が動画の生成でも有効である。先日、オープン AI が、テキストプロンプトから高精細なビデオクリップを生成するツールを発表した。動画生成 AI モデル「 Sora(ソラ)」である。現実の世界に目を向けると、映画制作現場ではしばしば連続性を担保するために膨大な人手が必要となる。小道具係やヘアメイク係、照明係、バンクを持つ者等である。彼らは、太陽の角度などがどこかの場面で突然変わらないように奮闘している。連続性という概念は奥深いものである。それは現実を一貫性のあるものにし、ある意味で現実的なものにするからである。具体的に言うと、動画の中に映っているあるモノが、一旦フレームの外に消えて再びフレームの中に戻ってきた時に、元と同じでなければならないということである。これまで、連続性を担保できていないことが、AI が説得力のある動画を作ることを妨げてきた。画像生成 AI に映画の 1 コマ 1 コマを生成させようとすると、コマごとの整合性がとれなかった。同じモノでもコマが違うと全く違う画像で出てくる。場面が違うと細部が一致しなかった。
Sora(ソラ)は単純な原理を使って連続性に近いものを担保する。木の一番下の層を思い出して欲しい。その下に滑り込ませた画像のピクセル内の色調やコントラストのような簡単な 1 つの特性だけを識別するグリットであった。Sora(ソラ)は、連続性を認識するために別の基本的なアイデアを採用している。通常、動画では、あるコマの特定の画像の 1 ピクセルは、次のコマでも表示される。しかし、通常は多少変化する。例えば、猫の右目の輝いている部分のピクセルは、1 コマだけでなく、複数のコマに連続して現れるだろうが、まったく同じ場所に留まることはない。猫の右目の輝いている点のピクセルのような小さな要素が連続するコマの中でどこからどこに移動しているかを計算することは、実はそれほど難しくない。動画に関してそうした計算を続ければ、連続するコマの中の特定の画像の特定のピクセルの挙動を認識できる。
説明が分かりにくかったかもしれない。カート・ヴォネガット( Kurt Vonnegut )の小説「スローターハウス 5( Slaughterhouse-Five )」に出てくるトラファルマドール星人( Tralfamadorians )という地球外生物が世界を見る方法をイメージすると分かり易い。その一節を紹介したい。
……以下抜粋……
トラルファマドール星人には、宇宙は明るい光の点をちりばめた暗い空間とは見えない。彼らは、ひとつひとつの星のこれまでの位置、これからの位置を手にとるように見わたすことができるので、空は極細の光るスパゲッティに満たされている。またトラルファマドール星人は、人間を、二足の生き物とは見ない。彼らの眼には、人間は長大なヤスデ、一端には赤ん坊の足があり、他端には老人の足があるヤスデのように見える。
…抜粋終わり……
Sora(ソラ)の重要な構成要素は静止画像を構成するピクセルではなく、動画の連続するコマのピクセルの挙動である。ユーザーがプロンプトにテキストを打ち込むことで、連続するコマの中の無数のピクセルの挙動から認識した内容が打ち込まれたテキストと関連付けられる。それによって、ユーザーはこれらの挙動を新しい方法で組み替えることができる。この種の動画を生成するモデルを使用して動画を生成するプロセスでは、カメラが動いた時の視点の変化や体の揺れ方など、あらゆるモノの動きがかなり本物っぽい。生成された動画の中の男がハンバーガーにかぶりつけば、かぶりついた分だけハンバーガーが欠けた状態になっている。しかし、こうした動画では手の動きが本物っぽくない場合も少なからずある。それには理由がある。手には独特の内部構造と動きの原理がある。そのため、そのシーン全体の連続するコマの中の無数のピクセルの挙動を認識する際に、手というミクロの世界で起こっていることが見逃されやすくなってしまうのである。