ロボットの学習方法の革命!AIのように強化学習できれば、人間ができることは全てできるようになる!

5.

 強化学習によって自ら学習するロボットは、ロボット工学研究者の間では長い間行き詰まりだと考えられてきた。基本的な問題は、カリキュラムデザイン( curriculum design )と呼ばれるものである。つまり、学習者が完全に失敗することなく能力を伸ばすにはどうすれば良いのかが重要となる。囲碁のシミュレーションゲームでは、打ち手は有限であり、勝利の条件も決まっている。アルゴリズムはそこに至るどの打ち手に対しても報酬を与えることができる。しかし、現実の物理的な世界では打ち手は無限である。ロボットがペンを回そうとする時、成功する方法よりも失敗する方法の方が圧倒的に多いのだが、ロボットはどうやって進歩していると判断するのだろうか?ルービックキューブをロボットに操らせようとしていた研究者たちは、まるでロボットがたどるべきパンくずを敷くかのように、報酬をシステムに手動で組み込まなければならなかった。つまり、ロボットは、キューブの面を正確に 90 度ひねるなど人間が有用であると知っている動きを教え込まれ、報酬を獲得したのである。

 人間の不思議なところは、本質的に新しいことを学びたがることである。私たちは自分で報酬を考え出す。私の息子は手の使い方をマスターしたかった。目にするものは何でも味わいたいと決心していたからである。それが、這ったり背中に手を伸ばすといった他の新しい動作を練習する動機となっていた。つまり、彼は独力でカリキュラムをデザインしたのである。少し複雑な動作に挑戦する頃には、彼はすでに多くの種類の基本的な動作を身につけていた。そのことは、訓練されていないロボットがするような、激しくピクピク動くといった、明らかに失敗する戦略の多くを回避するのに役立っていた。明確なカリキュラムもなく、明確な報酬もないロボットは、自らを傷つける以上のことを成し遂げることはない。

 ロボコップ ( RoboCop )やターミネーター( Terminator )など、私たちが想像するロボットは人間よりもはるかに頑丈だが、現実のロボットのほとんどは繊細である。「ロボットアームを使ってテーブルを叩いたり、何かを押したりすると、壊れる可能性が高い」と、OpenAI のルービックキューブを使った実験でロボットの手を作ったシャドウロボット( Shadow Robot )の研究員リッチ・ウォーカー( Rich Walker )は指摘する。「長期にわたる強化学習の実験は、ロボットを虐待している。訓練されていないポリシーは拷問である」。それは事実で、そのことがロボットが学習できる範囲を大きく制限することが判明している。壊れやすいロボットは、赤ん坊がするように物理的世界を探索することはできない(赤ちゃんは驚くほど丈夫にできている。また、おもちゃを飲み込んだりベッドから落ちるような事態に陥る前に、通常は親が介入する)。

 シャドウロボットはここ数年、中世の甲冑のこてのような外観で 3 本の指を持つロボットを開発している。指はそれぞれ独立して人間の親指のように動く。指先のスキン( skin )と呼ばれる膜の下のゲル層には小さな点が無数に描かれており、これが埋め込まれたカメラで撮影される。点の配置や模様は圧力によって変形する。これは、ロボットの頭脳が、指がいつ何かに触れたか、どのくらいの強さで触れたかを感知するのに役立つ。シャドウロボットの最初に開発したロボットハンドは、数時間ごとに再始動や修理が必要だったが、現在のロボットハンドは一度に何百時間も稼働できる。ウォーカーは、このロボットハンドの指が木槌の打撃に耐える動画を見せてくれた。

 先日、ビデオ通話で、ロンドンにある Google DeepMind の研究施設内で、柵のようなものにたくさんぶら下げられている新しいシャドウロボットのロボットハンドを見た。指は絶えず動いていて、ほとんどぼやけるほどの速さだった。ロボットハンドの 1 つが黄色いレゴブロックのようなものを摘み上げ、それを対応するソケットにはめ込もうとしていた。人間にとっては簡単な作業だが、3 本指のロボットハンドは、ブロックを落とさずに位置を変えようとして悪戦苦闘している。DeepMind のロボット開発部門トップのフランチェスコ・ノリ( Francesco Nori )は、「これは構造上、非常に不安定な作業である」と説明する。指が 3 本しかないため、ブロックとの接触を断ったり、再び接触させるという動作を瞬時に何度も続ける必要がある。まるで指の間でブロックを投げるような感じである。ブロックを握る強さを微妙に変化させることで、ブロックの安定性を増そうとしている。ノリは自分のスマホを親指と人差し指で力強く挟み上げた。次に握る力を緩めた。スマホは摘んだ点を支点として落下することなくブラリと回転した。「対象物を落とさないように強く握る必要がある。しかし、力が強すぎてはいけない。なぜならば、対象物の向きを変える必要があるからである」と彼は言った。

 当初、ここの研究チームは何人かのオペレーターに 3 本指のグローブをはめてもらい、ALOHA で実施していたスタイルの模倣学習でポリシーをトレーニングした。しかし、オペレーターは 30 分もすると疲れてしまった。人間工学的に作られていないグローブをはめて、人間の手がするのと同じ操作するというのは無理があり容易ではなかったのである。オペレーターによってこのタスクの解決方法は異なった。彼らがトレーニングしたポリシーの成功率はわずか 2% だった。可能な動作の範囲が広すぎたのである。ロボットは何を模倣すればよいか分からなかった。

 そこで研究チームは強化学習に目をつけた。彼らは、各動作を連続した細かいサブタスクに分割するという巧妙な方法で、ロボットに成功したシミュレーションを掘り出すことを覚えさせた。ロボットはサブタスクをいくつも練習した。簡単なものから練習し、徐々により難しいものも練習するようにした。事実上、ロボットは独自のカリキュラムに従ったのである。この方法でトレーニングされたロボットは、より少ないデータからより多くのことを学んだ。64% の確率でブロックをソケットにはめることができた。

 この研究チームが最初にポリシーを実行し始めた時、ブロックは真っ黄色だった。しかし、このタスクが何度も実行されたため、ロボットの指についたほこりなどで縁が黒くなってしまった。「このデータは本当に貴重である」とこのプロジェクトの分析担当研究員のマリア・バウザ( Maria Bauza )は言う。このデータによってシミュレーションが改良され、実際のポリシーが改善され、さらにシミュレーションが改良されるだろう。これらの過程では人間の介入をまったく必要としない。

 Google の社屋に行くと、主要な大学や企業の研究室の多くと同様、まるで映画「スター・ウォーズ( Star Wars )」のドロイド修理工場にいるような気分になる。マウンテンビューの研究施設で ALOHA の 1 台が動いているのを眺めていると、映画「ウォーリー( WALL-E )」に登場するような人懐っこそうな小さな車輪付きロボットがそばに立っていた。その先の角を曲がると、巨大な一対のアームがあった。このプロジェクトに関わっている研究員の 1 人は、「それほど困難なく 」骨を折ることができると説明した(このロボットにはそれを防ぐための安全装置が備わっている)。それはブロックを積み上げていた。一種のスーパー ALOHA である。ロンドンの研究施設には、高さ 20 インチ( 50 センチ)のサッカーをするヒューマノイドロボットのチームがある。これまで、ロボットはメーカーやモデルが異なると互換性がまったくなかった。つまり、あるロボットを制御するために使用したコードで別のロボットを制御することはできなかった。しかし、ロボット工学に携わる者たちの多くは、いつか単一の AI があらゆる種類のロボットを制御できる日が来ると夢見ている。