2.AIに常識を備えさせる取り組みが続けられている。
ところで、人間はどのようにして常識を身につけているのでしょうか。簡単に言ってしまうと、人間は多面的な学習者といえます。あらゆる方法を駆使して、常識を身につけているのです。人間は、様々なことを試してみて、その結果を観察します。また、本を読んだり、様々な指示に耳を傾けてそれを吸収したり、様々な状況で自分の頭で推論したりします。人間は、自分が失敗した際に学ぶだけでなく、他者の失敗からも学びます。それと比べると、AIは多面的な学習者ではないのです。AIシステムには、学習方法は1つしかありません。インプットのみに頼っていて、他のルートは無いのです。
初期のコンピューター研究者たちは、AIに常識を身につけさせるために、明示的に指示するという方策をとっていました。1984年、ダグ・レナトというコンピューター研究者が、公理やルールに基づく常識の百科事典のようなデータベースを構築し始めました。それは”Cyc”(サイク)と名付けられました。公理はどういったものかというと、ある公理は、「何かを所有するということは、それの各部も所有していることになり、それが及ぼす影響についての責任を負う。」というものでした。また、別の公理は、「硬いものは柔らかいものを壊すことができる。」という内容だったのですが、その記述の3分の1は人体は金属より柔らかいということの説明に費やされていました。無数の公理を積み上げていけば、常識を身につけたと同等の状態になるという前提で、例えば、前述の2つの公理を組み合わることで、自律運転自動車のバンパーが誰かの足にぶつかったら、怪我をさせてしまい、その自動車の所有者の責任となるという常識的な認識が備わります。レナトは私に言いました、「簡単に説明すると、”Cyc”(サイク)には膨大な人間の知識や常識がデータベース化されていて、AIはリアルタイムでそれにアクセスして推論を行います。」と。”Cyc”(サイク)は、現在Cycorp(サイコープ)社が所有する形になっていますが、”Cyc”(サイク)プロジェクトは1984年から継続して続けられています。何百人もの論理学者が何千万もの公理を何十年もかけてデータベースに加えてきました。サイコープ社は故意に表に出ないように研究を続けているので、同社の製品は秘密に包まれています。しかし、製造業や小売企業を支援するソフトウェアを提供している”Enterra Solutions”(以下、エンテラ・ソリューションズ)社のCEOであるStephen DeAngelis(以下、ステファン・アンジェリス)は、サイコープ社のソフトウェアは非常に魅力的であると私に言いました。アンジェリスによれば、料理等に関してCyc(サイク)は常識的な知識を十分に有しており、あらゆる果物や野菜の味の特徴に関する常識的な知識を膨大に持っているそうです。例えば、サイクは、トマトは果物に分類されることを認識しているのですが、フルーツサラダには使うべきではないと推論することができるのです。
多くのコンピューター研究者が、サイクのアプローチは時代遅れであると指摘しているようです。また、手間がかかりすぎると指摘する人も多いようです。サイクに批判的な人たちは、公理を膨大に積み上げてデータベースを構築しても、常識のニュアンスというか微妙な意味合いを認識するのは不可能であると考えているようで、”machine learning”(機械学習)の方が将来性があると思っているようです。実際、SiriやAlexaやGoogle翻訳等々には、”machine learning”(機械学習)が組み込まれています。”machine learning”(機械学習)は、膨大な量のデータを参照してパターンを検出します。”machine learning”(機械学習)システムは、1冊の取扱説明書だけを読んで指示に従うのではなく、膨大なデータを参照するようなものです。2020年、米国の非営利の人工知能研究所である”OpenAI”(以下、オープンAI)は、”GPT-3”という機械学習アルゴリズムを公開しました。そのアルゴリズムは、1,750億個のパラメータを使用した文章生成のための言語モデルで、インターネット上のテキストを見て、言語パターンを発見して文章を生成することが可能です。何も指示を出さなくても、ゼロから人間が書いたような自然な文章を生成できるようになりました。GPT-3は驚くほど自然な文章を生成でき、優れたテクノロジーであると実感できるのですが、時として驚くほど凡庸な能力しか示せない時もあります。とんでもなくデタラメな文章を生成することがあるのです。例えば、「ハワイから17へ行くには、虹が2本必要である。」という奇妙な文章が生成されることがあるのです。その文章が生成された原因は、GPT-3が虹を時間の単位であると誤認識し、17が場所を示していると誤認識したことにあります。そうしたことは、常識に照らせば起こり得ないことです。しかし、残念ながら、GPT-3には十分には常識が備わっていないのです。
チェの研究チームは、GPT-3のような文章生成モデルを活用して、AIに常識を備えさせる試みを行っています。いろんな研究をしているわけですが、GPT-3に何百万もの常識を備えた自然な文章を生成させたりしました。常識を備えた自然な文章というのは、原因と結果と意図が記されているようなものです。例えば、「リンジーは就職するために、求職しなければならない。」というような文章です。次に、チェの研究チームは、別の機械学習システムを搭載したAIに常識を備えつけさせる研究をしました。まず、たくさんの文章を生成し、生成された各文章の一部を隠しました。いわゆる空欄補充問題を作るような要領です。例えば、「アレックスは遅れてしまいクリスを待たせてしまった。クリスは( )ように見えた。」というような文章を作ったのです。それで、そのAIに空欄を埋めさせたのです。そのAIによって穴埋めが終わった文章を研究チームのメンバーが分析したところ、88%が常識的で自然な文章でした。その数字は、GPT-3の能力をはるかに凌駕するものでした。というのは、GPT-3によって生成された文章で常識的で自然であったのは、たったの73%でしかなかったからです。
チェの研究チームでは、短い動画で同じようなことを行いました。はじめに、チェと研究室のメンバーたちは、数百万のキャプション付き動画が格納されたデータベースを構築しました。機械学習システムを搭載したAIに、それを分析させました。一方、クラウドワーカーをたくさん雇い入れて、後でそのAIに解かせる問題をたくさん作らせました。問題は複数の選択肢から正解を選ぶ形式でした。そのAIが見たことが無い膨大な動画を集めたフォルダがあって、その中の動画から静止画像を切り取って、そのことに関して質問が為され、正しい選択肢を選ぶというものでした。例えばどんな静止画像が使われたかというと、映画”Swingers”(邦題:スウィンガーズ)から切り出した静止画がありました。ダイナーの場面で、1人のウエイトレスが3人の男性が座っているテーブルに出来上がったパンケーキを運んでいて、その中の1人の男性が他の男性を指さしていました。それに対する問題は、「なぜ”人物D”は”人物A”を指差しているのか?」というものでした。その質問に対して、AIは、「”指を差している男性”は、パンケーキを注文したのが”人物A”であることを”人物C”に伝えているのです。」と答えました。そのAIにどうしてそのような回答をしたのかを説明させたところ、「”人物C”は、テーブルへ出来上がった料理を運んでいるが、誰が何を注文したかは認識していない可能性が高い。」と説明しました。そうして膨大な数の問題をAIに解かせたところ、常識的な回答をした割合は72%でした。同じ問題を人間に回答させたところ、86%でした。この実験の結果は、とても印象的なものでした。どうやら、そのAIはかなりの常識を備えていて、物理的空間的な認識能力もありましたし、因果関係を理解する能力もありましたし、さらには心理面を推し量る能力もあるようでした。おそらく、そのAIは、人がダイナーでパンケーキを食べることを認識していましたし、ダイナーによってメニューが違うことも、ダイナーには沢山のメニューがあることも認識していたのでしょう。また、指差しをするということは、情報を伝達する方法であることも知っていたのでしょう。
しかし、そのようにしてAIに常識を備え付けさせる方法は、手間がかかりすぎますし、膨大なデータを覚え込ませなければならず、必ずしも現実的では無いように思えます。また、図書館に籠りっきりで勉強ばかりしているようなものです。その方法で、本当にAIに常識が備わるのでしょうか?はなはだ疑問です。生まれた瞬間から高速インターネット環境がある部屋に閉じこもってウィキペディアやYouTubeばかり見ていた子供が、大人になって初めて外界に出たら戸惑うのと同じような状況に陥るのではないでしょうか。DARPA(国防省国防高等研究計画局)でマシン・コモン・センスプログラムを推進しているマット・テュレクが私に言ったのは、この方法は確かにAIを司書化するような方法であるが、それが全てでは無く、AIに常識を備えさせるための膨大な手間のほんの一部分だそうです。何の常識も持ち合わせていない幼児に、教育もせず、いろんな経験をさせなかったら、常識は備わらないでしょう。AIだって同じですので、膨大なデータを学習させることは必須です。テュレクのプロジェクトでは、AIに膨大なテキストやビデオを自己学習させるのではなく、仮想環境下で様々なシミュレーションをしてAIに問題を解決させて常識を学んでいくというアプローチを取っているそうです。多くのコンピューター研究者とともに多くの発達心理学者も参画しています。そうして、生まれたばかりの赤ちゃんがどのように常識を身に付けていくかを理解しようと試みています。赤ちゃんは、どうやって方向感覚を身に付けていくのか。どうやって道具を使えるようになっていくのか。どうやって社会的な行動ができるようになっていくのか。そうしたことを研究しています。簡単に言うと、ある意味、常識を身につけるということは、友達と協力して積み木でタワーを作れるようになることと似ているのかもしれません。
アレン人工知能研究所では、仮想の3次元の家庭環境を構築しました。その空間は、”thor”と名付けられました。”the house of interactions(相互作用の家)”の頭文字です。それは、テレビゲームのようなものですが、家の中に置かれている家事用品・備品は自由に操作することができます。チェの研究チームは、AIをその空間内に住まわせました。AIは、”piglet”(以下、子豚ちゃん)と名付けられました。子豚ちゃんは、「言語を基礎とした物理的相互作用」ができるように設計されています。ちょっと抽象的すぎて分かりにくいので具体的に説明すると、子豚ちゃんに言語を使ってthorの中にあるものに関することを伝えることができるということです。例えば、「鍋の中に冷えたゆで卵がある。」ということを言葉で子豚ちゃんに伝えることができるのです。それで、子豚ちゃんに、その後どうしたことが起こるのかを予測させることができます。子豚ちゃんは、「ロボットがそのゆで卵を輪切りにする。」という文章を考え出して、それをコーディングしてthor内のロボットに指示を出します。指示されたロボットは、それを実行しようとします。仮想空間内でゆで卵が輪切りにされます。現実世界でゆで卵が輪切りにされるのと全く同じことが行われるわけです。そして、何が起こったかが報告されます。「ゆで卵が輪切りにされた。」と報告されるわけです。子豚ちゃんは、旧来のAIよりも少しだけ人間に近いと言えます。というのは、子豚ちゃんは、言語を解する能力が高いですし、言語で指示されて動くことができるからです。thorの中で次に何が起こるかを尋ねられると、例えば、「テーブルの上に投げたマグカップは割れるか?」というようなレベルの質問ですが、子豚ちゃんは5回に4回の割合で常識的な回答を返すことができます。もちろん、もっと複雑なレベルの質問には答えられません。まだまだ、限界は高くありません。チェは、thorについて言いました、「まだ、この研究は始まったばかりで、初歩の段階です。ですので、現時点では限られたことしかできません。」と。