2.
ChatGPTのような大規模言語モデルは、人工知能(AI)技術の最先端として賞賛されることがしばしばあります。しかし、不可逆的テキスト圧縮アルゴリズムと表現してしまうと、それほど最先端では無い、あるいは大した技術ではないと考える人もいるかもしれません。ChatGPTは単なる不可逆的テキスト圧縮アルゴリズムでしかないとする考え方は、大規模言語モデルに期待しすぎる世の風潮を是正するのに役立つと思います。しかし、ChatGPTを圧縮アルゴリズムとしてとらまえることは、他にも利点があります。2006年以降、AI研究者のマーカス・ハッター(Marcus Hutter)は、”人間の知識の圧縮賞(Prize for Compressing Human Knowledge)”、もしくは単純にハッター賞(Hutter Prize)という賞を設けて報奨金を提供し続けています。報奨金を受け取れるのは、ウィキペディア(Wikipedia)上の指定の1ギガバイトの情報を可逆的圧縮をして、前回の受賞者よりも小さくした人でした。多くの人がZIPファイル形式で圧縮されたファイルを目にしたことがあるでしょう。ZIPファイル形式で圧縮すると、ハッターが指定した1ギガバイト(gigabyte)のファイルを約300メガバイト(megabyte)まで縮小できます。最新の受賞者は、それを115メガバイトに縮小することに成功しています。高い圧縮率を実現するための研究が他の技術も進化させます。ハッターは、テキスト圧縮技術を進化させることが人間レベルのAI(人工知能)の創造に役立つと信じています。というのは、彼はテキストを理解することによって最も高い圧縮率を達成できると考えているからです。
圧縮技術とテキストの理解の関連を理解していただくために、足し算、引き算、掛け算、割り算の例が100万個書かれたテキストファイルがあるとします。このファイルのサイズを小さくするためには、いろんな圧縮アルゴリズムがあるのですが、最も圧縮率を高くする方法は、おそらく四則計算の原理を導き出した上で電卓のようなプログラムのコードを書くことでしょう。そのプログラムを使えば、元のテキストファイルの中にある100万例だけでなく、将来出会うかもしれないあらゆる四則計算の問題に完璧に対応することができます。同じロジックが、ウィキペディアの一部分を圧縮する事例にも当てはまります。もし、圧縮プログラムが運動方程式(力(force)は質量(mass)に加速度(acceleration)を掛けたものに等しい)を知っていれば、それを使って再構築することができるので、物理学に関するページを圧縮する際に多くの単語を削ぎ落とすことができます。同様に、圧縮プログラムが需要と供給の関係についての理解を深めた場合には、経済学に関するページを圧縮する際に多くの単語を削ぎ落とすことができます。同様のことが、他のさまざまな情報を圧縮する際にも適用できるはずです。
大規模言語モデルは、テキスト中の統計的な規則性を識別します。Web上のテキストを分析すると、「供給が少ない」というフレーズは、「価格が上昇する」というフレーズと近接して現れることが多いことが容易に分かります。この相関関係を認識させたチャットボット(chatbot:チャットとボットを組み合わせた言葉で人工知能を活用した自動会話プログラム)は、供給不足の影響について質問されると、物価が上昇すると回答するかもしれません。もし、大規模言語モデルが多くの経済学用語を認識していて、それぞれの相関関係の情報も膨大に蓄積していれば、さまざまな質問に対してもっともらしく回答できるかもしれません。その場合には、その大規模言語モデルが本当に経済理論を理解していると言えるのでしょうか?ChatGPTのような大規模言語モデルは、様々な理由からハッター賞の受賞対象者にはなれません。理由は、オリジナルのテキストを正確に再構成できないからです。つまり、可逆的圧縮ではないのです。しかし、不可逆的圧縮であるにもかかわらず、AI研究者が関心を持つほどの高いレベルで真に理解している可能性があるのではないでしょうか?
四則計算の例に戻りましょう。GPT-3(ChatGPTの元となった大規模言語モデル)に2つの数字の足し算・引き算をさせると、2桁の数字であればほぼ正しく答えを返してきます。しかし、数字が大きくなると精度は著しく低下します。5桁の数字の計算になると正答率は10%にまで落ちます。GPT-3が正解した四則計算のほとんどはWeb上に存在していません。例えば、「245 + 821」というテキストを含むWebページなどほとんど存在していないわけですから、単純に暗記をしているわけではないのです。しかし、膨大な量の情報を摂取しているにもかかわらず、残念なことに四則計算の原理を導き出せていないのも事実です。GPT-3が正解を返せなかった例をよく見てみると、四則計算をする際に「1」を繰り上げないといけないところで、できていないことが分かりました。Web上には確かに「1 」の繰り上げの仕方についての説明が散見されますが、GPT-3はその説明を取り入れることができていないようです。GPT-3が膨大な四則計算の例を統計的に分析したことで、本当に四則計算をできる装置に似たものを作ることができたわけですが、そのやり方のままでは、どう頑張っても本物にはなれません。
GPT-3は小学校で習うような四則計算が苦手なくせに、大学生レベルの論文を書くことが得意に見えることがあるのはなぜなのでしょうか?大規模言語モデルはとんでもない回答を返すことも多いのですが、時として経済理論などを深く理解しているように見えることもあります。四則計算の例は特殊なケースで、大規模言語モデルが最も苦手とする分野なのかもしれません。四則計算の例から統計的規則性を見出すのが困難なのかもしれませんが、Web上のテキストの中に統計的規則性を見出すことが、現実世界の膨大な情報を深く理解することに繋がっている可能性があるかもしれません。
もっと簡単に説明できるかもしれません。もし、ChatGPTが可逆的圧縮アルゴリズムだったらどうなるか、想像してみてください。もしそうであれば、質問に対して常に関連するWebページの記載を逐語的に引用して質問に答えるでしょう。その場合、このソフトウェアは従来の検索エンジンを僅かに改善しただけのものと受け取られるので、あまり印象に残らないでしょう。ChatGPTがWeb上の情報を一語一句引用するのではなく言い換えていて、それが学生が自分の言葉で頭の中の思考を表現しているのに似て見えるのです。読んだものをそのまま書いているのではないことが、あたかもChatGPTがその内容を理解しているかのような錯覚に陥らせます。生身の人間の場合、学生が丸暗記するだけでは真に理解が深まったと褒められることはありません。ChatGPTは、Webページ上の情報を逐語的に引用をすることができないわけですが、そのことで、何かを学んだように見えるのです。単語が膨大に並んでいるだけの情報を扱う場合、不可逆的圧縮の方が可逆的圧縮よりも賢く見えるものなのです。