[DL輪読会]A System for General In-Hand Object Re-Orientation

1.1K Views

March 11, 22

#deep learning #Deep Learning #Reinforcement Learning #Object Reorientation #Robot Manipulation #Teacher-Student Learning

スライド概要

2022/03/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 88.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 61.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 41.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 40.9K

各ページのテキスト

DEEP LEARNING JP A System for General In-Hand Object Re-Orientation [DL Papers] Hiroki Furuta http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル: A System for General In-Hand Object Re-Orientation • 著者: Tao Chen1, Jie Xu1, Pulkit Agrawal1 ➢ 所属: 1MIT • URL: https://arxiv.org/abs/2111.03043 • 概要: Shadow-handで一般の物体の再配置タスクを解くRLのシステムを構築。シミュレータから取得可能な物体の姿勢情報で学習した方策を少ない情報で蒸留し、実環境で適用可能にする。CoRL2021でBest Paper。 2

https://arxiv.org/abs/2111.03043

物体のRe-Orientationタスク • Shadow-hand内を初期位置とする物体を、指定された3次元の姿勢（右端）と一致するように再配置する 3

In-hand Re-Orientationを解く従来手法 1. 解析的なモデルとtrajectory optimizationを組み合わせた手法 ➢ Mordatch et al. 2012, Bai and Liu 2014, Kumar et al. 2014 ➢ 課題: 単純な形状の物体でシミュレーション上のみ, 物体のモデルに関する子細な情報と物理パラメータが必要 2. モデルベース強化学習 ➢ Kumar et al. 2016, Nagabandi et al. 2020 3. エキスパートのデモを活用したモデルフリー強化学習 ➢ Guputa et al. 2016, Open AI 2019, 2020, etc… ➢ 課題: 実環境での実験を考えると, 物体の状態を推定するためにモーションキャプチャなどの追加のセンサー情報を必要とする, 多様な物体に汎化しない, shadowhandが上向きの場合に限定される 4

提案手法のポイント目標: Shadow-handを用いた物体のRe-Orientationタスクをできるだけ一般的な形（以下の4つをすべて満たす）で検証する 1. 上向き・下向き両方のshadow-handで物体の操作を行う 2. 物体の操作の補助として地表面を使える 3. 新規の形状の物体を任意の向きに再配置できる 4. Handの関節の位置やRGBD画像などといった比較的容易に入手できる情報のみで機能する 5

提案手法のポイントモデルフリー強化学習に基づいた提案手法は, 次の3つの要素で完結: 1. Teacher-Student Learning (方策の蒸留) 2. Gravity Curriculum (重力パラメータによるカリキュラム学習) 3. 物体位置の安定した初期化 ➢ 物体やロボットのモデルに関する情報や接触のダイナミクス, センサーからの観測に関する特別な前処理などは一切必要ない 6

画像による形状の推定は不要? • 実験を通して, 物体の形状に関する情報にアクセスできなくても, 多くの未知物体を操作可能な方策が学習可能であることを示し, in-hand manipulationにおいて画像認識が以前から考えられていたほど重要ではないことが示唆された • 画像から推定される形状の情報を組み合わせることで性能は向上するかもしれないが, 組み合わせなくても様々な汎化が可能 7

Teacher-Student Learning • まずteacher policy をシミュレータ上では容易に取得可能な真の状態を利用して, 強化学習(今回はPPO)で学習する • 次にteacher policyを補助として利用して, student policy を実環境で利用可能な入力のみを利用して学習する ➢ shadow-handの関節位置, 物体の位置, 目標の姿勢との差 ➢ RGBD画像から取得できる点群, shadow-handの関節位置 • 基本的にteacher policyとstudent policyの状態空間は異なる( ) 8

Teacher方策の学習 • 物体を初期姿勢から目標姿勢に再配置する方策をモデルフリー強化学習で学習する • 方策の出力を滑らかにするために, 1ステップ前のactionも入力とする ➢ • MLPの方策とRNNの方策を両方試した • 実環境への適用可能性を見るために, 物体の質量, 摩擦係数, 減衰係数をランダムに変更し, stateとactionにノイズを加える, ダイナミクスの randomizationを試した 9

10.

Teacher方策の状態・行動空間 • 状態 (134次元) ➢ シミュレータから取得できる物体/shadow-handの真の状態 • 行動 (20次元), 報酬関数 ➢ actionは関節角の相対的な変位 ➢ 10

11.

Student方策の学習 • Teacher方策とStudent方策の間のKL divergenceが最小となるように Dagger[Ross et al. 2011]によって, Teacher方策をStudent方策へ蒸留する ➢ • Reduced Stateの場合 ➢ 関節の位置(24次元), 物体の位置(3次元), 現在の物体の姿勢と目標の姿勢の差を表すクォータニオン(4次元)のみを使って学習 ➢ 手法の有効性の検証としての実験 • RGBD画像の場合 ➢ 関節の位置(24次元) ➢ , RGBD画像から取得できる点群を利用 11

https://arxiv.org/abs/1011.0686

12.

Student方策の学習物体の対称性に起因する課題への対処 • 真の状態を用いる場合, タスクの成功判定は, 物体の姿勢と目標状態の姿勢間の角度が一定の値以下であるかどうかで判断 ➢ • 一方, RGBD画像の場合は物体の姿勢に関する情報は一切利用せず, 物体の点群から姿勢の推定を行う ➢ 対称性のある物体の場合, 異なる2つの姿勢が同じ点群に対応してしまう場合がある • 次のChamfer distanceを追加的な成功判定の基準として用いることでこの問題の影響を緩和する ➢ 12

13.

Student方策のネットワーク構造 • 2次元のRGBD画像を入力とするIMPALA [Espeholt et. al. 2018]で提案されたネットワーク構造を, 点群を入力とできるように, Sparse 3D Convで置き換えるなどして改良 13

https://arxiv.org/abs/1802.01561

14.

実験設定 • 環境: NVIDIA Isaac GymのShadow Hand (24自由度) • データセット: ➢ EGAD datasetから2282種類のテクスチャの無い物体 ➢ YCB datasetから78種類の日用品 (5つの異なる大きさで量増し) 14

15.

Shadow-Hand 上向きの場合 • 垂直方向上向きをz軸正の向き, 水平面をxy平面とする • 物体の初期位置について, 中心位置を中指と掌の交差点を中心にした 0.09m × 0.09mの正方形の中からランダムサンプル(xy座標), z座標は 0.13mで固定 • 物体の初期姿勢と目標姿勢はSO(3)空間からランダムサンプルされる 15

16.

Shadow-Hand 下向きの場合 • (b)のようにShadow-Handを下向きにした場合, ランダムに物体の位置と姿勢をサンプルすると, Shadow-Handで掴めずに学習が進まない • テーブルによる補助(c)とGravity Curriculum + 物体位置の安定した初期化(d)で下向きの場合も学習できるようになった 16

17.

Teacherの学習とReduced Stateを用いたStudentへの蒸留 Full Stateを用いたTeacherの学習 ➢ 方策にRNNを用いた方がMLPを用いるより性能がよく, EGADでおよそ95% (B1), YCBでおよそ80% (G1) ➢ 状態に物体の形状情報を含めなくても高い成功率だった ➢ 物体を回転させながら上に放り投げてちょうど目標状態と重なった瞬間にキャッチする動作を学習 17

18.

Teacherの学習とReduced Stateを用いたStudentへの蒸留 Reduced Stateを用いたStudentへの蒸留 ➢ 状態の次元を少なくした場合でも成功率をほとんど落とさない ➢ Dynamics Randomizationを加えた場合(with DR)でも高い成功率 ➢ 失敗の分析を行うと, 長くて, 小さくて, 細い物体に起因するものが60%, 目標姿勢の手前で止まってしまうのが19%程度 18

19.

Shadow-hand 下向きの場合 • テーブルの利用 ➢ モデルフリーRLなら外界の補助を利用するのも簡単で, EGADで95%, YCBで81%程度の成功率 • Gravity Curriculum ➢ 重力加速度 g = 1.0 m/s2から初めて, 成功率に応じて段階的にg = -9.8 m/s2まで下げる • 物体位置の安定した初期化 ➢ 物体位置をランダムに初期化するのではなく, 物体を掴んで持ち上げる方策を学習し, その終端状態を初期位置として利用する ➢ 間違った行動を取ると物体は即座に落下してしまうので, 問題としては依然として難しい 19

20.

Shadow-hand 下向きの場合: 例 • 左から右, 上から下にかけて物体の姿勢を変更している 20

21.

データセット間のzero-shot転移 EGADで学習した方策をYCBでテスト, またYCBで学習した方策をEGAD でテストするzero-shot転移の実験を行った ➢ Shadow-hand上向き(U), 下向き(D)どちらの場合も高い成功率 ➢ Reduced-stateの場合(RS)もFull-stateの場合(FS)と比べてそれほど大きな性能の低下は見られない 21

22.

RGBD画像を入力とした場合 • 学習する方策をロバストにするために点群にデータ拡張を行った ➢ ランダムな平行移動, 位置へのノイズ, 欠損, 色など • 非対称な物体ほど簡単で, 対称な物体ほど難しい傾向にある 22

23.

まとめと課題 • Shadow-handで一般の物体のReorientationを解くシステムを構築 • 物体の形状に関する情報なしでも十分に学習できることは, 予想外の発見 ➢ 人間も目を瞑っていても新しい物体のReorientationが可能(?) • Domain Randomizationの実験から実環境でも同様に動作すると考えられる • 物体の形状(特に対称性)に依存して成功率が大きく変わる ➢ 物体の形状についてカリキュラム学習をすると良いかもしれない • また, RGBD画像を用いる場合は計算量のボトルネックが大きい 23