ロボットの学習方法の革命!AIのように強化学習できれば、人間ができることは全てできるようになる!

2.

 今年の夏、私はカリフォルニア州マウンテンビュー( Mountain View )のショッピングモール跡地を訪れた。今は Google の社屋になっている。夏にしては涼しい日だったと記憶している。中に入る途中、ウェイモ( Waymo )の自動運転車の初号機など、グーグルの過去のいくつものムーンショット( moonshots:難しいが、実現すれば大きな効果をもたらすような、壮大な計画や試み)を展示した小さな展示室の前を通り過ぎた。2 階では、Google DeepMind のロボット工学研究チームのジョナサン・トンプソン( Jonathan Tompson )とダニー・ドリエス( Danny Driess )が、配線が至る所に張り巡らされた工場のようなフロアの真ん中に立っていた。

 数十の作業スペースがあり、多くのオペレーターが作業台の上に身を乗り出し、さまざまな作業をしていた。自分の手ではなく、金属製の一対のロボットアームに作業をさせていた。アロハ( ALOHA )と呼ばれるこの装置は、「両手遠隔操作のための低コストのオープンソースハードウェアシステム( low-cost open-source hardware system for bimanual teleoperation )」であり、かつてザオがスタンフォード大学の博士課程で研究したものだった。個々のアームの先には手首の関節で回転する 1 個の爪があり、ヴェロキラプトル( velociraptor:中生代白亜紀後期の小型肉食恐竜 )の頭のように器用に動く。女性研究員の 1 人が、ロボットアームを使って 1 本のネックレスをジュエリーケースの開いた引き出しに慎重に下ろしていた。その後ろの別の女性研究員はジップロックの袋の口を開いていた。その横で若い男性研究員がロボットアームが子供用シャツを折りたたむのと同じ動作を再現すべく手を前に突き出していた。細心の注意を要する作業で、アームのジョイント部分が動く際の音を除けば、室内は静かだった。「平行開閉グリッパ( parallel jaw grippers )でできることとできないことを研究しているのだが、とても興味深い結果が出ている」と、トンプ

ソンは空いている作業エリアで私に席を勧めながら言った。「始め方をお見せしましょう」とトンプソンは提案した。「両手を使って何度もつついたりすることで、向きを変えるのが簡単になる」。

 私は 2 つのハンドルに指を巻きつけた。片方の手を押したり引いたりすると、ロボットの爪がそれに従った。トンプソンはおもちゃ数個と蛍光ペン 1 本を作業台に置いた。私は右手で小さなプラスチックのダイヤモンド(ひし形)に優しく触れて、ブロックにあいたひし形の穴に押し込もうとした。「ちょっと無理かな」と私は言った。私の脳は驚くべき速さで、この爪が私の新しい手だと判断したが、まだ正しく配線されていない状況だった。私は思い通りにダイヤモンドを扱うことができなかった。息子に同情したことを思い出した。彼は初めて買ったおもちゃの 1 つで同じようなトラブルに見舞われていた。

 迂闊にも私は左手があること忘れていた。左手の爪を開いたり閉じたりする練習をしてみたら、ダイヤモンドの向きを簡単に変えられることがわかった。ドリエスが口を挟んだ。「フォースフィードバック( force feedback:操作に応じて振動や衝撃を伝える機能)がないのが分かると思うが、まったく問題ない」。ダイヤモンドの周りのグリッパを閉じた時、私の手は何も感じなかった。しかし、何とか穴の形に合わせてダイヤモンドを通すことができた。

 私は自信を得た。左の爪で蛍光ペンをつかみ、右の爪でキャップを外した。トンプソンによると、多くの研究員にも同じような作業をさせているという。足元に 2 つのペダルがある。1 つは「成功( Success )」、もう1つは「失敗( Failure ) 」と書かれている。うまくいけば右のペダルを、うまくいかなければ左のペダルを踏む。蛍光ペンのキャップを何時間も開けたり閉めたりする。すると AI は、模倣学習( imitation learning )という手法で、爪の後ろに誰もいなくても、成功した操作を模倣しようとする。テニスのインストラクターが生徒に正しいバックハンドストロークを見せて指導しているのを見たことがあるなら、それが模倣学習である。

 私は作業台の下にコンピューターがあるのに気づいた。ドリエスの説明によれば、データを収集する 4 台のカメラと、ロボットの動きを立体的に追跡するために多くのセンサーがあるという。集められるデータは一連のニューラルネットワークによって「ポリシー( policy )」と呼ばれるものにまとめられる。それは基本的にロボットに何をすべきかを指示するコンピュータープログラムである。製造プラント等の組み立てラインのロボットアームは、時計回りに 10 度回転し、アイテムを拾い、それからそれを置いて、また回転を戻し、それを繰り返すという非常に単純な制御ポリシーを持っている。ここでトレーニングされているポリシーははるかに複雑で、研究員が成功した事例からすべてを取り込んだものである。

 ドリエスは近くのパソコンをいじり始めた。彼は私にシャツをハンガーにかけるポリシーを見せようとした。「このポリシーを洗練させるために実際の作業を何回行ったか?」 とトンプソンが尋ねた。「 8,000 回」とドリエスは答えた。私は研究員が 8,000 回シャツを掛けるところを想像した。私たちの後ろで、研究員が交替し、交替で来た者が作業を始めた。「彼らは 1 時間以上連続で作業をすることはない。その前に 1 時間の休憩を挟む」とトンプソンは言った。

 ポリシーの準備が整うと、トンプソンは子供用のポロシャツを作業台に置き、ドリエスがエンターキーを押した。突然、私が操作していた ALOHA が勝手に動き始めた。2 本のアームが動き出し、ポロシャツを掴もうとしている。まるでディズニー映画「ファンタジア( Fantasia )」で魔法使いの弟子が使う魔法のほうきのようであった。

 右の爪はシャツの片隅をつかみ、モーター音を響かせながら、ハンガーがかかった小さなプラスチックのコートラックに向かって持ち上げた。左の爪がハンガーを掴む。次のステップでは、ハンガーを片方の肩に通してその側を固定し、反対側の肩でも同じことをした。ロボットは一瞬停止し、その後再び動き出した。最後に、ハンガーにかけたシャツをラックに吊るした。

 「これは成功だ」とトンプソンは右の成功と書かれたペダルを軽く踏みながら言った。立ち会ってみて、私にはこの作業の複雑さが良くわかった。人間がこの作業をする際には、目から得られる情報を頼りに、手が微調整をする。ALOHA は市販されている中では最もシンプルで安価なロボットアームの 1 つであるが、非常に多くの研究員が関与している。ロボットの器用さの限界に挑戦している。「卵の殻を割ることもできる」とトンプソンは言った。ザオはコンタクトレンズをケースから取り出し、それをおもちゃのカエルの目に装着することに成功している。しかしながら、依然として裁縫など精密さが求められる作業をこなすのは難しい。

 Google Books の黎明期には、請負業者によって部屋いっぱいの作業員が雇われ何百万ページもの本を手作業でアーカイブ化していた。部屋いっぱいの ALOHA は、日常生活の中の動作の微妙な物理的動きを解き明かしていた。人間のあらゆる動きを解き明かすべく作業が続けられている。彼らが生成したデータは、ロボット工学研究者が「大規模行動モデル( large behavioral models )」と呼ぶもののトレーニングに役立つだろう。

 私はトンプソンとドリエスに、彼らのロボットを有名にするのに寄与したポリシーを見せて欲しいと頼んだ。「とても優秀な教授がいる。その人物はロボットが靴紐を結べるようになったらすぐに引退すると言っている」とドリエスは言った。トンプソンはテーブルの上にポンと靴を置いた。

 2 つの爪が動き出すと、それぞれが靴紐の端をつかみ、それで輪を作り、それを互いに絡み合わせた。爪が離れると、私たちは歓声を上げた。ロボットは靴紐を結んでいた。

 「彼は引退するのか?」と私は問うた。どうやら引退しないようである。AI の究極の夢の 1 つは一般化( generalization )である。ロボットは靴ひもを結んだ。一般化とは、トレーニングデータの範囲を超えた時にポリシーがどのように機能するかということである。彼らはこのポリシーを 2 つか 3 つの靴だけでトレーニングした。

「もし私の靴を渡したら、完全に失敗するだろうか?」と私は思い切って尋ねた。

「試してみよう」とトンプソンは言った。私は右足だけスニーカーを脱いだ。それを扱うことになった研究員には申し訳ない気がした。トンプソンは勇敢にもそれをテーブルの上に置き、その間にドリエスはポリシーを再度読み込ませた。

「期待したいのだが、これは不可能だと考えられているタスクである」とドリエスは言った。

トンプソンは、少し不安そうに新しい実験対象を見つめた。「とても短い靴ひもだ」と彼は言った。

 ポリシーが起動し、2 つの爪が動き出した。先ほどと違い、爪はつかむことなく靴ひもを突いた。「あなたの靴が破壊されることに同意するか?」と、両爪がシュータンをつかんだ時、ドリエスは冗談で言った。トンプソンは失敗のペダルを踏む前に、さらに数秒間試させていた。