[DL輪読会]Multi-Agent Manipulation via Locomotion using Hierarchical Sim2Real

426 Views

August 23, 19

スライド概要

2019/08/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Multi-Agent Manipulation via Locomotion using Hierarchical Sim2Real Reiji Hatsugai, DeepX. http://deeplearning.jp/ 1

2.

目次 • • • • 外形情報 事前知識 手法説明 感想 2

3.

目次 • • • • 外形情報 事前知識 手法説明 感想 3

4.

書誌情報 • 13/8/2019Arxiv投稿 • 著者(全員Google AI) – – – – Ofir Nachum(Path Consistency Learning、Data Efficient Hierarchical RLなど) Michael Ahn Hugo Ponte Shixiang Gu(Q-Prop、Model Base + Model Free、 Data Efficient Hierarchical RL など) – Vikash Kumar(Soft Actor Criticなど) • ビデオページあり( https://sites.google.com/view/manipulation-vialocomotion) • Google AI Residencyプログラム • CoRL? 4

5.

論文概要&読んだ理由 • 論文概要 – 階層型強化学習をSim2Realに応用し、階層型でない方策では獲得できなかった挙動を 獲得した – マルチエージェント環境での学習も行った • 読んだ理由 – Domain Randomization(DR)はSim2Realを行うに際し、重要な手法となっているが、 その幅が広すぎると学習が困難となってしまう問題があった – 階層型にして、DRの幅をコンポーネント毎に制約するのは非常に有望な手法だと思わ れるため 5

6.

目次 • • • • 外形情報 事前知識 手法説明 感想 6

7.

キーコンポーネントの紹介 • Sim2Real • 階層型強化学習 • マルチエージェント強化学習 7

8.

Sim2Real • シミュレーター内で学習した方策を、現実環境に適用することで、ゼロショッ ト転移を行う技術 • 背景 – 深層強化学習は様々なタスクに対して、大きな成果を上げている(e.g. Atari、 AlphaGo、Dota2、StarCraft) – 一方でその必要試行回数の多さから、現実環境での学習は進んでいない • 時間的制約、ハードウェア的制約 – 学習がシミュレーター内で完結すれば、計算機の性能向上の恩恵を受けることができ る 8

9.

Domain Randomization • Sim2Realを成功させるために使われているデファクトスタンダードの手法 • 基本思想 – シミュレーター内の物理パラメータや環境の情報について、幅を持った形でサンプル を行うことにより、シミュレーター内の環境を多様にし、現実環境をシミュレーター 環境で包含させ、転移を上手く行わせる シミュレーター環境 現実環境 9

10.

Domain Randomizationの成功事例 • 把持対象物体の位置情報を取得する – Domain Randomization for Transferring Deep Neural Networks fromSimulation to the Real World • 四足歩行ロボットをまっすぐ走らせる – Sim-to-Real: Learning Agile Locomotion ForQuadruped Robots • DroneにNavigationを行わせる – CAD2RL: Real Single-Image Flight Without aSingle Real Image • 五指のロボットを使って、サイコロを自在に操る – Learning Dexterous In-Hand Manipulation • Deformableな物体のmanipulationを行う – Sim-to-Real Reinforcement Learning forDeformable Object Manipulation 10

12.

Domain Randomizationの課題と既存の解決方法 • 扱うタスクが難しくなるにつれて、Randomizeするパラメータの数、幅が増え ていき、学習が困難になったり、保守的な方策が獲得される – 論文中では「Scalability challenges」 • 既存の解決策:幅が大きくなりすぎないように、 – 現実環境のパラメータ同定を行う、シミュレーターをベイズ最適化する • BayesSim: adaptive domain randomization via probabilistic inference for robotics simulators – 現実環境への転移に有効なパラメータ範囲で多く学習を行う • Active Domain Randomization 12

13.

階層型強化学習 • 方策に階層構造を持たせ、上位の方策が出力した行動に条件付けられた形で、 下位の方策の行動が決定される • 上位方策はnステップに一回呼ばれる、というような形の場合が多い(自動で 上位方策の呼ばれるタイミングを決定する手法もあったような気がします) • 上位の方策の出力値について以下の2つのパターンが存在する – 目的状態を出力する – 隠れ状態を出力する 13

14.

目的状態を出力する階層型強化学習 • 上位方策はnステップ後に達成していて欲しい状態を出力し、下位方策はそれ を達成するための行動を出力する • Data-Efficient Hierarchical Reinforcement Learning(著者二人が被ってい る)がある • 下位方策の役割を目的状態の達成とするため、下位方策の学習が単独で完結し、 モジュール性が高まる利点がある 14

15.

隠れ状態を出力する階層型強化学習 • 上位方策は、下位方策を条件付ける隠れ状態を出力し、下位方策は上位方策の 出力を入力に加え行動を決定する • 実機で学習を行い、軌跡追従を四足歩行ロボットで成功させている – Hierarchical Reinforcement Learning for Quadruped Locomotion • 学習はEnd-to-Endになるためモジュールとして下位方策を単独で学習させる ことはできない 15

16.

マルチエージェント強化学習 • 上位方策の出力がロボット二台分になっただけで、特にこれといった工夫は 行っていない 16

17.

目次 • • • • 外形情報 事前知識 手法説明 感想 17

18.

手法の説明 • 前述した通り、DRは強力な手法であるが、その限界もある • 本論文では、DRの幅を狭めることでその限界を緩和する手法ではなく、階層 性によってできたモジュール毎にDRを振り分けることで、全体としての幅を 狭め、複雑なタスクを成功させている • 直感的に抽象化すると、DRで扱う集合が、2つの集合の直積集合から、2つ の集合の和集合となることで、全体の要素数が減少し学習が容易になるという ことだと思っています • 具体例を説明していきます 18

19.

実験タスク説明 • 四足歩行ロボットを用いて、以下のタスクを行う – Avoid:箱を避けながら目的地に到達する – Push:箱を押して目的地まで持っていく – Coordinate:協調して箱を押す 19

20.

どのような階層性を導入するのか • 上位方策はnステップ後に到達して欲しい相対座標を出力し、下位方策は出力 された相対座標に到達するために、四肢を動かして移動を行う • 上位:経路生成 • 下位:経路達成 20

21.

今回用いているDomain Randomization A) 上位(経路生成)のためのDR – 箱、目的地のRandomization – 上位の出力値にノイズを加える B) 下位(経路達成)のためのDR – 物理パラメータのRandomization • Joint damping, joint friction, actuator gain, total mass, and surface friction – 外力 • Random force – 一定確率で前回の行動が引き継がれる – 凸凹の道(めっちゃ効くらしい) • (階層型強化学習を用いない場合はAとBが個別にサンプルされ、DRの幅が大きくなってしまうが、 上位下位を分けることにより、下位はBの環境で経路を達成することに注力し、上位はBの Randomizationを無視したAの環境でタスク達成のための経路生成に注力できる) 21

22.

より詳しい手法の説明 • 行動空間 – 上位:相対座標を極座標表示で表現するためのrとθ – 下位:詳しい記述なし(アクチュエータ?) • 報酬関数 – 上位:タスクの報酬 – 下位:目的状態へのL2ノルムのペナルティと補助報酬関数 • 補助報酬関数:機体が姿勢を保っているか、方向があっているか、目的地近くなるとボーナス • 学習方法 – まずランダムにサンプルされた相対座標を目的状態として、下位方策を学習する – 下位方策学習後に、下位方策を固定して、上位方策を学習する – Natural Policy Gradient • 「Data Efficient Hierarchical RL」ではDDPGを使っていたが、なぜNatural Policy Gradientな のか 22

23.

実験結果 • 現実環境で、10回の試行を3つの異なる学習モデルで評価(計30回) • 下位方策の学習に関しての結果 – シミュレーター内の床を凸凹にすることで現実環境での移動距離に50%程度の性能向上が見られる 23

24.

シミュレーターのみでの評価 24

25.

結論 • 階層性を導入することにより、従来Sim2Real with DRでできなかったタスク ができるようになった • これは、階層性の導入によってDRをモジュール的に扱うことができたためで ある • より複雑な環境、より多くのエージェントの協働作業がfuture work 25

26.

目次 • • • • 外形情報 事前知識 手法説明 感想 26

27.

感想 • DRの限界問題は対処すべきだが難しい問題だったので、この論文によって今 までと違うアプローチが出てきたのは良いことだと思う – BayseSimとかActive DRは正直微妙な気がしていた • 階層性によって、上手く問題の難しい部分やDRの幅が大きい部分を、分割で きるような設計を行うのが、キモだと読んでいて思った – より発展的な階層型強化学習でいくと、そこの設計も行ってくれるのが望ましいはず 27