3.AIに常識を備えさせることは非常に難しい。常識は無限にあるし、常識が必ずしも正しいわけでもない。
数年前、私は、”Codenames”(以下、コードネーム)というボードゲームをプレイするためのAIソフトウェアを作りました。そのAIを作る時の肝は、いかにして人間に備わっているような常識を備えさせるかということでした。コードネームを人間がする場合は、25枚置かれた単語が書かれたカード(コードネームカード)を挟んで、2つのチーム(赤チームと青チーム)が両側に座ります。各チームは、1人のスパイマスターとそれ以外(諜報員)で構成されます。ゲームの目的は、相手チームよりも早く、25枚のカードの中から全ての味方のエージェントを見つけることです(赤チームであれば、赤のエージェントカードをすべて見つけること)。スパイマスターだけがキーカードを見ることができます。キーカードには、どのカードが赤チームのエージェントであり、どのカードが青チームのエージェントであるか等が示されています。スパイマスターは、諜報員にヒントを与えて、自チームのカードを選ぶように仕向けなければなりません。先攻後攻で交互に手番が回ってきます。自チームの手番になったら、スパイマスターはヒントを出し、諜報員が エージェントとコンタクトをとります(カードをめくる)。次に相手チームの手番になり、それを繰り返します。スパイマスターの出せるヒントは、単語1つと数字1つのみです。単語は、選ぶべきエージェントを連想させるもので、数字はその単語に関連して見つけ出すべきエージェントの数です。例えば、あなたが友人のマンションで行われたこのゲームをやっている時に、スパイマスターから「柔道」と「2」というヒントを出されたら、それから連想されるカードを2枚選ぶわけです。さて、スパイマスターは、「東京」と「ベルト(帯)」と書かれたカードを選んで欲しいと意図してヒントを出したわけですが、常識があれば正しく選ぶことができそうな気もします。
コードネームでは、スパイマスターが出すヒントを手がかりにするわけですが、諜報員となってゲームをする者は持っている知識を総動員させてヒントを元にさまざまな連想をしなければなりません。予想に反して、私が作ったAIソフトは、コードゲームをプレイするのに十分な程度の知識を有していました。スパイマスターが「wife(妻)」と単語と数字「2」をヒントとして出した時があったのですが、選ぶべきカードは「princess(王女)」と「lawyer(弁護士)」の2枚でした。このAIプログラムは数百行のコードで組まれているのですが、自律的にWebページを調べて、2つの異なる単語が互いに近くで使われている頻度を調べるようになっていて、なおかつ、その頻度を数値化して示すようなっていました。2つの単語の関連性が高いと数値は高くなります。AIプログラムを組み上げている途中でその能力を計測してみたところ、プレイマスターの出すヒントから手がかりを見出して、選ぶべきカードを類推することができることが分かったのですが、ほぼ人間と同等レベルでした。しかし、そのAIプログラムに備わっている常識は、薄っぺらいものであることも事実でした。とんでもないミスをすることがありました。試しにスパイマスターが、「root (根)」というカードを選んでもらうために、「plant(植物)」という単語をヒントに出したことがあったのですが、そのAIプログラムは、なぜか「New York」のカードを選びました。次に「garden(庭)」というヒントを出したところ、なぜか「theater(劇場)」のカードを選びました。
コンピューターがどの程度の常識を備えているかを正確に判断するためのテスト方法は、これまでにも多くのコンピューター研究者が考案しています。2011年にトロント大学のコンピューター研究者ヘクトル・ルベスクは、” Winograd Schema Challenge”(ウィノグラード・スキーマ・チャレンジ)というテストを作成しました。簡単な質問が文章で示されているのですが、代名詞が含まれており、その曖昧さを理解するには常識的な知識が必要となっていました。それは、人間にとっては簡単な問題なのですが、コンピューターにとっては厄介な問題でした。なぜなら、統計情報を参考にしても回答できないからです。人間にとっては簡単な構文であって、即座に文章の意味を想像して代名詞が何を示しているかを判断できるのですが、コンピューターにはそれが難しいようです。ウィノグラード・スキーマ・チャレンジで作られた質問は、「トロフィーが茶色のスーツケースに入らなかった。なぜなら”それ”が大きすぎたからだ。さて、大きすぎたのは、何でしょう?」とか、「ジョーンは、スーザンに感謝しました。”彼女”に手助けしてもらったからです。さて、手助けをしたのは誰でしょう?」というものでした。2019年に私が初めてルベスクと話した時に聞いたのですが、出来の良いAIシステムでも、ウィノグラード・スキーマ・チャレンジの質問の正答率は50%程度でした。彼が私に言ったのですが、それは予想どおりだったそうです。というのは、それらの質問に正解するには人間に備わっている知識や常識を総動員する必要があり、AIにはそれが不足していると考えていたからです。その頃、チェの研究チームは、クラウドワーカーを大勢雇って4万4,000個のウィノグラード・スキーマ・チェレンジの質問を作らせました。そして、それをアレン人工知能研究所のWebサイトで公開しました。他の研究機関や企業等にそれを解いてもらい、スコアを競わせました。スコアのランキングも公開しました。現在では、機械学習システムも進化しており、優秀なAIシステムの正答率は約90%です。チェは言いました、「ここ数年のAIの進化は、凄まじいものがあります。」と。
しかし、AIが進歩したといっても、まだまだ未熟なところが多いのも事実です。機械学習モデルは、パターンを見つけ出して、それを利用しています。私が構築したコードネームをプレイするAIは人間と同等レベルでプレイでき、一見すると深い知性があるように見えました。しかし、そうではありませんでした。AIに深い知性があるように見えても、実際には不正を行う方法を見つけたに過ぎないということが多々あるのです。AIには、正しい答えと間違った答えの微妙な文体の違いを嗅ぎ分ける能力があります。つい先日のことですが、アレン人工知能研究所の研究チームは、ある種のAIシステムは3択問題の問題文を読まずに選択肢を見ただけで正解を導き出せることを発見しました。その方法で3分の2は正解できるそうです。チェの研究チームは、AIが問題文を読まなければ解けないようにする手法を開発しました。問題文に曖昧さを残す手法のようです。しかし、それも直ぐにAIが対処できるようになり、問題文を読まず正答を導き出すようになるのではないでしょうか。いたちごっこが続くでしょう。学生が試験を受ける際には、テストを作る側は純粋に知識を問うていて、学生は正解するために勉強して知識を増やそうとします。同様に、AIも正答率を高めるべく、進化し続けているのです。
私は、チェに、AIが常識を備えていることを確認する方法があるか聞いてみました。彼女は、AIに文章を生成させて白紙のページを全て埋めさせれば、そのAIに常識が備わっているか否かを確認することができるのではないかと言いました。彼女は言いました、「記者を雇う際の採用試験では、選択式の質問など出さず、文章を書かせるでしょう?それと同じことです。」と。彼女の研究チームは、”TuringAdvice”(チューリング・アドバイス)というテストを開発しました。AIシステムに、Redditに投稿された質問に対する回答を作成するよう指示し、作成された文章の内容を人間が評価します(AIシステムが作成した回答の中には突拍子のないものもあり、安全性が担保できないので回答は投稿はされていません)。研究チームのメンバーは、そのテストに参加したさまざまなAIシステムの回答を評価しました。現時点では、各質問ごとに最も良いAIの回答と最も良い人間の回答を比べると、AIが勝っている確率はたったの15%ほどでしかありません。
AIシステムはかなり進化したとはいえ、人間の文章や文化を分析するには、現時点では限界があります。問題の1つに、”reporting bias”(報告バイアス)というものがあります。それは、限られた特定の情報だけを重視しすぎてしまうということです。常識というのは誰もが知っていることであるが故に、あまりそれについて語られることはありません。AIは、その語られた部分のみしか知らないのに、それが全体だと認識してしまうことがあるのです。チェが私に言ったのですが、AIが備えている常識はまだまだ不十分であるそうです。また、別の問題として”Social bias ”(社会的偏見)というものもあります。往々にしてAIシステムは、特定の民族や人種などの属性に対して先入観を持ってしまいますし、人間と違って微妙な差を認識して間違った類型化をしてしまうこともあるようです。チェの研究チームは、ある研究でアルゴリズムを使って700本以上の映画の台本を調べたことがあります。アルゴリズムに調べさせたのは、権力に関する動詞とその主語でした。その結果分かったのは、一番出現頻度が高かったのは、主語が男性の場合は”dominate”(支配する)で、女性の場合は”experience”(経験する)であったということです。チェは著名なコンピューター研究者ですが、韓国人であり女性であるということで、これまでに何人も社会的偏見を持った人物を見てきたことでしょう。彼女は、この研究の結果をニューオーリンズで発表しました。その時、発表が終わった後で、MCをしていた男性がマイクを握ってねぎらいの言葉を述べました、「”lovely talk”(素敵な講演)をありがとう。”lovely work”(素敵な仕事)でしたよ。」と。その男性は、女性が発表したから”lovely”と言う単語を使ったのでしょう。でも彼は、男性の研究者が発表したのであれば、そんな言葉遣いはしないはずで、全く間違った気遣いでした。AIシステムは、人間からインプットをもらったり、人間の言動を見聞きして常識を学んでいくのですが、時として間違ったことを教えられていることもあるのです。