ロボットの学習方法の革命!AIのように強化学習できれば、人間ができることは全てできるようになる!

4.

 Google のキャンパスの古い建物の 1 つには、卓球台が 1 台あり、その片側に自動車メーカーの工場で見かけるような大きな産業用ロボットアームが付いている。そのアームは1本のラケットを握っている。私が訪れた日の午後、サミンダ・アベイルワン( Saminda Abeyruwan )という分析担当研究員がネットの反対側に置いたパソコンに向かって座っていた。ソフトウエア研究者のパナグ・サンケティ( Pannag Sanketi )がアベイルワンに「そのコードを実行して」と指示した。すると、アームがカチッと音を立てて反応した。

 2022 年時点のこのロボットの動画を見ても、対戦する気にはなれなかった。私が中学時代に所属していたテニス部の用語で言えば、このロボットは「プッシャー( pusher )」のようであった。ミスをしないために自分からはあまり攻撃を仕掛けず、ひたすら相手のミスを待つことによってポイントを取る戦法を取るように見えたのである。しかし、このアームはそれから 2 年間で大きく改善されている。もう 1 人の分析担当研究員フェイ・シャ( Fei Xia )が、「フォアハンドに気をつけろ 」と私に警告した。

 アベイルワンは練習用のサーブをマシンに打ち込んだ。アームはガントリー( gantry:構台)に取り付けられているのだが、装置全体がプリンターのヘッドのようにガタガタと音を立てながら、ありえないほどの速さで動いた。ラケットが空気を切り裂くように振り上げられた。球はネットの向こうに打ち返された。アベイルワンは素早い動きで反撃した。ラリーとなるも、アームの 3 回目の攻撃でクロスに放たれた球がフォアハンドを抜いた。0 対 1。

「あまりプレーしたくない」とアベイルワンは言った。「僕の弱点を狙ってくるんだ」。彼は私にラケットを差し出した。

 ロボットでないことの欠点は、自分のメモリーにポリシーをロードできないことである。卓球台で自分のリズムを掴むには、通常 15 分ほどかかる。ウォーミングアップのつもりで、相手に球をロビングで返した。バックハンド側に強烈なクロスショットが返ってきた。テーブルの端ギリギリだった。

「これはかなり凶暴だ」と私は言った。どう見ても両コーナーを狙っているようにしか見えなかった。

「競技力を高めるため改善を重ねてきた」とサンケティは言った。「その過程でより攻撃的になった」。

 ほとんどのアームの返球は台の奥を狙ったロングショットだった。私は自分のショットのスピードを少し落としたりしたが、アームは対処し深い球を返してくる。ラリーが続いてこちらが角度を付けて返すと、さらに深い角度で打ち返してくる。より多くの球が私のバックハンド側を突いた。「アームは相手のプレースタイルに適応し、弱点を突いてくるのが分かった」と私は言った。

 相手が私の弱点を突いたため、私も逆手に取って球にカットをかけて返球した。アームの返球はネットにかかった。「アームはスピンが苦手だ」と私は言った。分析担当研究員たちは、私やアームがボールを打つときのラケットの傾きを推定するために動作追跡システム( motion-tracking system )を使っていたが、感度が十分ではなかったようである。

 他にも限界があった。「卓球台にラケットが近づきすぎるのは非常に危険である」とサンケティが言った。そのため、アームは常にテーブルから少なくとも 2 インチ(約 5 センチ)上あたりにラケットを浮かせている。そのため返球時にトップスピンをかける際に限界があった。私が球を低く速く打ち返すと、ロボットはかなり苦労していた。サンケティは、アームのミスの原因の多くはそこにあると疑っていた。しかし、ロボットが私と対戦したことがなかったということも原因と推測された。私のプレースタイルは、機械学習の専門用語で言うところの分布外( out of distribution:機械学習においてモデルのテスト時の訓練データに無かったデータ)であった。つまり、靴紐の訓練でいえば、規格外の短い靴紐だったのである。

 「この問題を解決するには、ロボットがミスした球をすべて認識し分析する必要がある」とサンケティは続けた。「さらなる改善を続ける。機械学習を続けるしかない。学習方法はかなりこなれてきたので、成熟速度は早くなるはずである。次に来た際には、もっといいプレーをお見せできるはずである」。 この夏の 4 週間で、わずか数十人の選手からのデータだけで、このロボットはド素人の初心者レベルから中上級者レベルに上達した。「目標は超人的なパフォーマンスの実現か?」 と私は尋ねた。

 「そうだ」とサンケティは言った。彼の後ろには、同じようなアームが付いた卓球台がもう 1 つあった。大きな違いがあった。卓球台の両側にロボットアームが 1 台ずつ付いていた。この先どうなるかは予想できた。

 2010 年にロンドンを拠点とする AI 研究所として設立されたディープマインド( DeepMind )は、古代のボードゲームである囲碁の世界チャンピオンに勝利したアルファ碁( AlphaGo )というプログラムを開発したことで有名である。当初、AlphaGo はプロの棋士の指し手を模倣できるように、膨大な対戦のデータベースが入力されていた。その後の新しいバージョンでは自分自身のコピーと対戦する「セルフプレイ( selfplay )」のみで学習した。このモデルは驚くほど効率的な学習者であった。これは、AI が人間を模倣するのではなく試行錯誤によって自分自身で学習する「強化学習( reinforcement learning )」と呼ばれる手法の最良の例である。このモデルでは偶然良い動きを見つけるたびに、そこにつながった決定が強化され、モデルはより良くなる。この方法で学習を 30 時間続けただけで、AlphaGo は地球上で最強のプレーヤーの 1 つになった。

 しかし、現実の物理的な世界でデータを収集するのは、コンピュータ内で行うよりもはるかに難しい。Google DeepMind の最高の囲碁モデルは、バーチャルで対戦を数秒で終わらせることができる。しかし、現実世界ではピンポン球の速さには限界がある。Google の古い社屋の広い研究スペースは多くの卓球ロボットに占有されていたが、研究員は 3 人しかいなかった。研究員たちは、ファン( fans )やファネル( funels:漏斗)やホッパー( hoppers )を使ってルーブ・ゴールドバーグ・マシン( Rube Goldberg Machine )のような仕掛けを発明しなければならなかった。プレーした球を戻してロボット同士のラリーを続けさせるためである。サンケティは説明によれば、今のところロボットはディフェンスよりもオフェンスの方が得意なのでラリーは早々に終わってしまうという。「ラリーを継続させることができない」と彼は言う。そのため、研究員たちはロボットに人間相手のトレーニングを続けさせなければならなかった。

 全ての対戦相手に勝つ卓球ロボットを開発するという挑戦は、DeepMind ならではの取り組みだった。この挑戦は、非常に印象的であり、ある意味突飛であり、成果を誰もが認識しやすいものである。また、非常に有用でもある。あなたの上達度合いに合わせてレベルを調整してくれる疲れ知らずの練習パートナーがいると考えると理解してもらえると思う。しかし、DeepMind のロボット工学研究を率いるパラダが言ったのだが、このプロジェクトは終了するかもしれないという。Google は 2014 年に DeepMind を買収し、2023 年に AI 研究をしていた Google Brain 部門と合併させた。しかし、Google は、未だに大胆な AI 製品で有名なわけではない(同社は評判が高く難解な研究をしている企業を数多く高値で買収してきたが、買収後に実際にはそれほど価値がないことが判明するという事例を繰り返していることで有名である)。パラダが私に語ったのだが、卓球ロボットの研究開発で判明したのは、ロボットが競技スポーツに十分な速さで「考える( think ) 」ことができるということである。また、人間と相互作用することで、ロボットのスキルをどんどん上達させることができる。ALOHA の驚くべき能力と合わせて、これらの研究成果は、人間レベルの器用さをロボットが習得できる可能性があることを示している。