ロボットの学習方法の革命!AIのように強化学習できれば、人間ができることは全てできるようになる!

3.

 子どもの発達の研究者は、赤ちゃんは生後 9 カ月ごろに、親指と人差し指で小さなものを挟む能力(ピンサーグリップ: pincer grip )を発達させると言いたがる。これは、現象を手という観点から理解するものである。しかし、それと同じくらい重要なのは、この操作に必要な知識に目を向けることである。子どもは、アボカドが指から滑り落ちる前にどれだけ強く握れるか、チェリオス( Cheerios:アメリカで人気 No.1 のシリアル)が潰れる前にどれだけ強く握れるかを学ばなければならない。

 私の息子は生まれた時から、AI 研究者が 「ネクストトークン予測( next-token prediction ) 」と呼ぶ作業に取り組んでいる(訳者注:トークンとは文章の最小単位のこと)。バナナに手を伸ばす時、彼の脳はそれが指先にどんな感触を与えるかを予測する。触ってみて、彼はバナナがツルツルしていることを学習する。これはほとんど ChatGPT のような大規模言語モデルが学習する方法と同じである。大規模言語モデルはインターネットから散文を拾い集めると、文中の次のテキストチャンク、つまりトークンを自分自身から隠す。前のトークンに基づいて隠されたトークンを推測し、トークンを表示して推測がどれだけ近かったかを確認し、矛盾があれば学習する。この学習方法の優れた点は、人間の介入をまったく必要としないことである。インターネット上のトークンの形で、大規模言語モデルに生の情報を与えるだけで済む。

 大人である私たちは、生涯にわたるトークンの成果である、言葉では言い表せないほど豊かな現実世界のモデルを持っている。これは実に有用である。身の回りの物体など表面を見ればそれがどんな味がするかを想像することができる。実際の味は想像した通りである。それは這いずり回り、あらゆるものを口に入れながら過ごした長い年月と関係がある。誰でも大人になるまでに、無意識のうちに器用さを学習により習得している。そのおかげで羽毛布団をカバーに入れることができ、犬のおやつの密封された袋を片手で開けることができる。私と息子の違いは、私の予測のほとんどが正確であるということである。私は、つかめるかもしれないと思って水の流れに手を伸ばすことはない。とはいえ、例外的に予測が外れることもしばしばある。つい先日、レストランで友人にガラスでできているように見える彫刻を突くように言われたのだが、それはまるでゴムのように柔らかだった。私はモデルを更新した。

 ALOHA が人間よりも上手に靴紐を結ぶことができないのは、 ALOHA の爪が機能的に劣っているわけでもセンサーの感度が低いからでもない。すべての靴紐が同じ状況にないことに原因がある。靴紐の配置、靴紐を持ち上げるたびに曲がったり下がったりする様子は常に異なっている。物理的な物体の相互作用の仕方を記録したインターネットサイズのアーカイブは存在しない。その代わりに、ロボット工学研究ではロボットを教育する複数の競合する方法が考案されている。

 ある陣営はシミュレーションに賭けている。AI チップメーカー大手エヌビディア( Nvidia )は、産業プロセスの 「デジタルツイン( digital twins )」を作成するソフトウェアを開発した(訳者注:デジタルツインは現実空間の、ヒト・モノ・コトの様々なデジタルコピーをサイバー空間上に表現する先進技術である。 現実空間とそっくりな双子をサイバー空間上に作り出すため、デジタルツインと呼ばれる)。OpenAI は、ルービックキューブを回すロボットハンドをトレーニングする際にシミュレーションデータを使用した。膨大な数のロボットハンドのコピーが同時並行で練習することができるわけで、実物のロボットハンドが実行するには 1 万年かかるシミュレーションを実行した。より多くのデータを生成するために必要なのはより大きな演算能力( computing power )であり、ロボットは映画「マトリックス( The Matrix )」の主人公ネオ( Neo )が仮想空間でカンフー等の戦闘技術を学んだ時のように学習することができる。しかし、ロボットハンドの動作やルービックキューブの動きを完璧にシミュレートすることはできない。ペーパータオルでさえ、くしゃくしゃにしたり破いたりすると予測不可能となる。昨年、エヌビディアが論文を発表した。自社の研究チームが学生が暇つぶしに行うペン回しの動作をロボットハンドにシミュレート学習させることができたという。しかし、この論文では、実際のロボットがそのトリックを実行できるかどうかについては触れられていない。

 この点で模倣学習( imitation learning )はシミュレーションよりも優位性があると考えられている。アメリカのスタートアップ企業フィギュア( Figure )は、頭、胴体、両腕、両脚、5 本指の手を備えた精巧なヒューマノイド( humanoid )ロボットを作るために 6 億ドル以上を調達した。フィギュアの創業者であるブレット・アドコック( Brett Adcock )によれば、これまでのところ同社のヒューマノイドが見せる最も見事な手先の器用さは、パック入のハムを 1 枚取り出すことだという。「人間ができることをさせるのであれば、ロボットに人間が周囲を認識し影響を及ぼす方法をまったく同じ形で実際に経験させるしかない」とアドコックは言う。現在、テスラ( Tesla )、1x (ノルウェーのロボット開発スタートアップ企業)、アジリティ・ロボティクス( Agility Robotics:オレゴン州)、および中国企業数十社がヒューマノイドの開発でしのぎを削っている。バンクーバーを拠点とするロボット工学と人工知能のスタートアップ企業のサンクチュアリ AI ( Sanctuary AI )の共同設立者であるジョーディー・ローズ( Geordie Rose )は、人間と同じように動くロボットの方がデータを収集しやすいと主張する。「例えば、8 本の吸盤付き触手を持つタコ型ロボットでコップを拾えと言われたら、どうすればいいかわからないだろう?」と彼は言う。「しかし、人間の手で拾えと言われれば、全然難しいことではないはずである」。フェニックス( Phoenix )と呼ばれるサンクチュアリ AI の洗練されたヒューマノイドは、人間に遠隔操作されることで部分的に学習している。遠隔操作する担当はパイロット( pilot )と呼ばれているが、触覚グローブ( haptic glove )、上半身を覆う外骨格スーツ( exosuit )、そしてロボットが見ているものを映し出す VR ヘッドセット( virtual-reality headset )を装着する。パイロットの小指をほんの少し曲げる動作まで、あらゆる動きがロボットに再現される。フェニックスは ALOHA とほぼ同じ方法で学習するが、はるかに表現力が豊かである。

 もちろん、ロボットにあらゆる技術を手取り足取り教えなければならないのであれば、ロボットが役に立つようになるには長い時間と膨大な数の外骨格スーツが必要となってしまう。私はパンを焼きたいと思ったら、「ブリティッシュ・ベイクオフ( The Great British Bake Off:アマチュア料理家がパン、パイ、ケーキ作りなどの腕を競う英 BBC 製作の超人気番組、日本では NHK が放映)」で審査員をしているポール( Paul Hollywood:人気シェフ)とプルー( Prue Leith:レストラン経営者)に腕を操縦するよう頼んだりはしない。ただその番組を 1 話見るだけである。「それが究極の目標だよね?」と ALOHA プロジェクトを率いるトンプソンは言う。「モデルが YouTube の動画を見て、やりたいことを基本的に何でも学習するのを想像してみて欲しい」。しかし、YouTube の動画は、パン職人の肘の正確な角度や、こねるときの指の力の強さは教えてくれない。離れた場所で実行されている動作を活用するには、ロボットが自分の手を人の手にマッピングする必要がある。そのためには基礎、つまり物理世界とその中の身体のメンタルモデル、そして単純なスキルのレパートリーが必要である。

 人間は人生の早い段階で、学習する方法を学ぶ。数カ月前、私の息子は揺り木馬の上に座っていた。揺らせられないので落ち込んでいた。しかし、肩越しに同じような木馬に乗っている女の子が足を蹴って揺らしているのを見た。猿は見て真似ることができる。何度か試しているうちに木馬が動き出し、彼の顔に笑みがこぼれた。AI の開発者の中には、「フライホイール( flywheel:弾み車。ビジネスの世界ではビジネスを継続し成長させ続ける一定のサイクルを指す)」について話すのが好きな者が多い。フライホイールは一度回り出すとなかなか止まらない。フライホイールが回るようにロボットの学習が上手く進み始める時、ロボットはより効率的に物事を認識し、より早く向上し始める。そうしたことがロボット工学の世界で起こることが期待されている。それは、人間がロボットに手取り足取り教える時代から、一気に自力で学習するように飛躍するために必要なことである。