【DL輪読会】DayDreamer: World Models for Physical Robot Learning

1.6K Views

October 03, 22

#deep learning #Deep Learning #Robot Learning #World Models #DayDreamer #Reinforcement Learning

スライド概要

2022/9/30
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DayDreamer: World Models for Physical Robot Learning Yuya Ikeda, MatsuoLab B4 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ◼ 題名 ◼ DayDreamer: World Models for Physical Robot Learning ◼ 著者 ◼ Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel University of California, Berkeley ◼ 会議 ◼ CoRL2022 ◼ URL ◼ https://arxiv.org/pdf/2206.14176.pdf 2

https://arxiv.org/pdf/2206.14176.pdf

概要 ◼ 実ロボットを用いたタスクをDreamerで直接学習 ◼ 実機・オンラインで数時間で学習 ◼ 4種類のタスク環境での検証を行なった ◼ 一貫したハイパーパラメータを使用 ◼ 主要なモデルフリーRLアルゴリズムと比較実験を行い、Dreamerの有効性を検証 ◼ 実世界ロボット学習のための枠組みを示した引用 https://danijar.com/project/ daydreamer/ 3

https://danijar.com/project/

背景深層学習は大量のデータを用いることで高い精度を実現してきたロボット学習の課題・・・実機でのデータ収集コストが非常に高い → シミュレータの活用高速・並列に動かせるのでデータを効率的に集められる ◼ シミュレータをどのように作成するか ◼ 人が設計したシミュレータを用いる方針 ◼ 学習によって獲得したシミュレータを用いる方針 4

背景 ◼ 人が設計したシミュレータを利用したデータ収集 ◼ 環境・ロボットのモデルをシミュレータで再現しデータを集め学習 ◼ シミュレータ(sim)で学習した方策を実機(real)で利用(sim-to-real) ◼ 人が設計したシミュレータの課題 ◼ sim-to-realした際に性能が発揮できない場合がある ◼ realの環境やモデルがsimで正確に再現できていないことに起因 ◼ この環境差はreality gapと呼ばれる ◼ reality gapに対処する主な工夫 ◼ sim環境をランダム化する (domain randomization) ◼ 汎化性能の向上が期待できる 5 引用 : https://openai.com/blog/solving-rubiks-cube/

背景 ◼ 学習によってシミュレータを獲得する方針 ◼ モデルベースRL ◼ 以下を繰り返し行う・方策に基づき行動し、環境からデータを収集・データから環境のモデルを学習する・学習した環境のモデル(世界モデル)から方策を更新 ◼ 世界モデルをシミュレータとして利用できるためサンプル効率が良い ◼ Model-Based Reinforcement Learning for Atari ◼ SimPLeと呼ばれるモデルベースRLでAtariをプレイ ◼ モデルフリーRLと比較して数倍のサンプル効率引用 : Model-Based Reinforcement Learning for Atari 6

背景 sim-to-real vs モデルベースRL ◼ sim-to-real ◼ reality gapが課題 ◼ domain randomizationなどによりある程度解ける ◼ 実機を用いたロボット学習では主流 ◼ モデルベースRL ◼ 正確な世界モデルを学習することが難しい ◼ 成果はAtariなどに限られており、実ロボットへの活用はあまりなかった → DayDreamerが登場 7

DayDreamer ◼ ネットワーク ◼ DreamerV2 ◼ 高いサンプル効率を発揮したモデルベースRLの一種 ◼ アルゴリズムはそのまま使用している ◼ タスク ◼ 各タスクで同一のパラメータを使用 ◼ A1 Quadruped Walking ◼ UR5 Multi-Object Visual Pick and Place ◼ XArm Visual Pick and Place ◼ Sphero Navigation 引用 : https://arxiv.org/pdf/2206.14176.pdf 8

A1 Quadruped Walking ◼ タスク詳細 ◼ 12DOFの4脚ロボットで歩行を行うタスク ◼ 入力はモータの角度、姿勢、角速度 ◼ アクションは各モータの角度 ◼ 初期状態は仰向けになった状態 ◼ 報酬 Unitree A1 9

10.

A1 Quadruped Walking ◼ 実装上の工夫 ◼ 訓練可能な領域の端に到達したら、ロボットの姿勢を変えず手動で位置を戻す (リセットを用いない) ◼ ロボットが転がりやすいようにシェルを3Dプリンタで作成 ◼ 結果 ◼ 1時間後には前進するように ◼ 10分の追加学習で外乱に耐えるように ◼ SACは立ち上がることができなかった引用 : https://arxiv.org/pdf/2206.14176.pdf 引用 : https://www.youtube.com/watch?v=A6Rg0qRwTYs 10

11.

UR5 Multi-Object Visual Pick and Place ◼ タスク詳細 ◼ ５DOFのロボットアームで複数物体のpick and placeを行うタスク ◼ 片方の容器からもう片方の容器へ移動させることが目標 ◼ 入力はロボットの位置、RGB画像 ◼ アクションはグリッパのx, y, zの変位とグリッパの開閉 ◼ 報酬 ◼ 物体をつかむと+1 ◼ つかんだ物体を同じ容器内で離してしまうと-1 ◼ つかんだ物体を異なる容器内で離すと+10 ◼ 結果引用 : https://arxiv.org/pdf/2206.14176.pdf ◼ 8時間後に人がテレオペした時に近い性能 ◼ RainbowやPPOは物体をつかんでも同じ容器に落としてしまう 11

12.

XArm Visual Pick and Place ◼ タスク詳細 ◼ 7DOFのロボットアームで単一物体のpick and placeを行うタスク ◼ 片方の容器からもう片方の容器へ移動させることが目標 ◼ 紐でロボットアームと物体を接続 ◼ 物体が角でスタックしないようにするための工夫 ◼ 入力はロボットの位置、RGB画像、Depth画像 ◼ アクション、報酬はUR5の実験と同様 ◼ 結果 ◼ 10時間後に人がテレオペした時に近い性能 ◼ Rainbowでは学習できなかった引用 : https://arxiv.org/pdf/2206.14176.pdf 12

13.

XArm Visual Pick and Place ◼ 結果 ◼ 照明条件が大きく変化した際性能が低下するが、5時間ほどで元の水準に ◼ Dreamerが適応的に学習していることを示している ◼ ここはあまり意義がわからなかった ◼ RGBに加えてDepthを入力している影響はどれくらいなのか ◼ Depthを使っていないUR5の方は照明条件に関する言及はない引用 : https://arxiv.org/pdf/2206.14176.pdf 13

14.

Sphero Navigation ◼ タスク詳細 ◼ 車輪付きロボットを目標位置までナビゲーションするタスク ◼ ロボットは左右対称なので観測履歴から方向を推定する必要がある ◼ 入力はRGB画像 ◼ アクションはロボットのトルク ◼ 報酬 ◼ ゴールとのL2距離を負にした値 ◼ 結果 ◼ 2時間でナビゲーションができるように ◼ DrQv2でも近い性能を達成 ◼ DrQv2 : 画像ベース連続値制御モデルフリーRLアルゴリズム引用 : https://arxiv.org/pdf/2206.14176.pdf 14

15.

まとめ・感想 ◼ 実世界ロボットを用いたタスクをDreamerで直接学習 ◼ モデルベースRLを用いることで低時間(〜10h)で実機のみで学習が可能 ◼ Dreamerをそのまま適用してきちんと動作しているのが驚き ◼ 実世界ロボット学習のための枠組みを示した ◼ 実機を使って世界モデルを学習する新しいアプローチ ◼ 人が設計するシミュレータと世界モデルをうまく組み合わせることができるとより高度なことができそう ◼ ハードウェアや設定に論文に明示されていないトリックがありそう ◼ コードが公開されている＆A1が利用できるので動かしてみたい ◼ 本当は輪読会までに動かしたいと思っていたが準備が間に合わなかった 15