[DL輪読会]Learning quadrupedal locomotion over challenging terrain

704 Views

November 13, 20

#deep learning #Deep Learning #Machine Learning #Robotics #Control Policy #Quadrupedal Locomotion

スライド概要

2020/10/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Learning quadrupedal locomotion over challenging terrain K ohei N is himura http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル – Learning quadrupedal locomotion over challenging terrain • 著者 – J o o n h o L ee, J e m i n H w a n g b o , L o re n z W el l h au s en , V l ad l en Koltun, M a r c o Hutter • 所属 – Ro b o t i c S y s t e m s L ab , R o b o t i c s & Artificial In t el l i g ence L ab , Intelligent S y s t e ms Lab • 出版 – Science Robotics • リンク – 論文: h t t p s : / / r o b o t i c s . s c i e n c e m a g . o r g / c o n t e n t / 5 / 4 7 / e a b c 5 9 8 6 – コード: なし • ※注釈がない場合は、本論文からの引用 2

概要 • 概要 – 多様で複雑な自然環境下で歩行できる4 足歩行のロボットの制御方策の学習方法を提案した。 – 複数のロボットに対して全く同じ方策で異なる環境にチューニングすることなく適用し、歩行できることを確認した。 – 制御時の入力情報には各関節の状態とIMU のみを利用し、vis io n や衝突センサなど複雑なシステムを必要とせずに歩行を実現した。 – 方策の学習にはS i m 2 R e a l を用いて、z e r o - s h o t の学習とした。 3

結果の概要 • 実世界の様々な環境で失敗なく異動が実現できている – h ttp s ://r o b otics.s cien cemag.o r g/co nten t/5/4 7/eab c59 8 6/tab -f igu res data 4

目次 • • • • • 背景先行研究提案手法結果まとめ 5

背景 • 多脚ロボットは障害物があったり、様々な環境下で動作できるロボットとして注目を浴びている • 汎化性能、チューニングしやすさ、効率性を考慮した研究は少ない https://www.bostondynamics.com/spot-mini http://biomimetics.mit.edu https://www.anybotics.com/anymal/ 6

先行研究 • 多様な環境での4 足歩行の制御 – 接地や滑りなどの状態を明示的に推定する。 – 泥、雪、植生などのモデル化されていない環境において不安定になることがある。 • RLによる制御方策の獲得 – 室内の平坦な表面や適度にテクスチャのある表面など、実験室の環境や条件に限定されており、多様性が十分に評価されてこなかった。 7

問題設定 • 4 足のロボットで歩行をさせる • 制御入力は進行方向と移動方向のみ目標速度は入力としない。 8

提案手法の概要 • 手法の概要図 9

10.

提案手法の肝 • 論点 – 環境に対する汎化性能が高い制御方策をどうやって獲得するか • 打ち手 1. 制御アーキテクチャ • Sim2Realのアプローチを取りやすい制御アーキテクチャ 2. 方策学習 • Sim2Realの強みを活かした蒸留の利⽤ 3. カリキュラム学習 • 学習時の環境のパラメータを⾃動で更新する 10

11.

1 . 制御アーキテクチャ • 機体の状態(速度と姿勢)と、各関節状態を用いて制御するアーキテクチャをとることで、Si m 2Real の転移をしやすい問題設定にしている – カメラや接触センサなどの情報を利用しないため、センサ空間で実世界とシミュレータの差を埋める必要がない。 11

12.

(補足) H o r i z o n F r a m e 制御を安定化させるため、H or i zon F r a m e を用いている. • 概要 – 座標系のxy平面は常にz軸(地磁気方向)と垂直である座標系 • 効用 – 本体の姿勢などによる影響を受けないため、制御の安定性や姿勢の復元に貢献する。 https://iit-dlslab.github.io/papers/barasuol13icra.pdf 12

https://iit-dlslab.github.io/papers/barasuol13icra.pdf

13.

(補足) F o o t T r a j e c t o r y G e n e r a t o r • 13

14.

2 . 方策学習 • 概要 – シミュレータ内の環境情報をリッチに取得できる環境での強化学習で親方策を学習させる – 実機制御に用いる方策は親方策からの蒸留によって獲得する 14

15.

2 .の詳細親方策の学習シミュレータ内でリッチな環境情報を入力に強化学習する • 学習アルゴリズム – TRP O • 入力情報 – encoder • ! " (リッチな情報) – M LP • #"(ロボットの状態), $"(潜在表現) • NN構造 – M L P ( e n c o d e r ) + M LP 15

16.

2 .の詳細親方策の学習 • T R P O の報酬関数 • 報酬関数の内容とお気持ち – !"#: 機体の座標系方向の速度に対する報酬 • 速いほど良い – !$# : 各関節の回転速度に対する報酬 • 速いほど良い – !%: 機体の移動方向に対する報酬 • 機体の⽅向が安定しているほど良い – !%&: 機体のb o d y と地盤の衝突に対する報酬 • 衝突しない⽅が良い – ! ' : 理想軌道に対する報酬 • 理想軌道がスムーズな⽅が良い – !( : 関節トルクに対する報酬 • トルクが少ない⽅が良い 16

17.

2 .の詳細子方策の学習親方策を用いてE n c o d e r の教師あり学習を行う • E n c o d e r 学習アルゴリズム – 誤差関数 • 入力情報 – encoder • ℎ" – MLP(親方策と同じ) • NNの構造 – T C N ( E n c o d e r ) + M LP 17

18.

(補足) TCN • 時系列情報を表現するネットワーク https://arxiv.org/abs/1803.01271 18

https://arxiv.org/abs/1803.01271

19.

3 . カリキュラム学習 • RL学習を用いて、歩行性能が高く、汎化性能も高い方策を学習するためには、簡単でも難しくもない環境で学習することが重要であると主張した。 • 粒子フィルタを用いて学習環境を更新しつつ制御方策を学習する学習する手法を提案した。 • 学習環境の地盤形状のパラメータを粒子フィルタで用いて更新する 19

20.

3 .詳細アルゴリズムの詳細 • 推定したい値は、!%" ,$ • 観測確率は – 0. 5, 0 . 9 は、ハイパーパラメータ • 地盤形状の望ましさ&' (! " , ))は、 • ここで、追従可能度合い&+(!", )) と評価関数, は、 20

21.

(補足) アルゴリズムフロー • 21

22.

(補足) 学習時間 • 22

23.

実験設定 • 概要 – 屋外・屋内の環境で人の制御信号(進行方向と回転方向)に従ってロボットを歩行させる – ロボットは複数の世代のA N Y malを用いる • 評価指標: cost of transport – 制御の効率性を評価する指標 – !: 関節のトルク – #̇: 関節速度 – $%: 総重量 – ' : 移動速度 23

24.

ベースライン • アクチェエータのモデリングによって、経路生成・非線形最適化によって制御信号を出力する https://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/221541/bellicoso-ral.pdf?sequence=8&isAllowed=y 24

http://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/221541/bellicoso-ral.pdf?sequence=8&isAllowed=y

25.

実験設定 • 屋外の環境屋内の環境 25

26.

実験結果定量評価 • ベースラインよりも効率よく移動できていることが示された 26

27.

実験結果 • 失敗の少なさ、速度の安定性、姿勢の誤差のすべてでB as e lin e を上回った 27

28.

A b l a t ion s t u d y 1. TC N の入力ステップ数 2. 方策の蒸留 3. カリキュラム学習 28

29.

A b l a tio n1. T C N の入力ステップ数 • 入力ステップ数を増やせば増やすほど性能が向上する。 – 実機適用時のステップ数は1 0 0 – 1 0 0 よりも大きい値との比較はなかった。 29

30.

A b l a tio n2. 方策の蒸留 • 方策の蒸留を用いることで性能が向上することを確認した。 30

31.

A b l a tio n3. カリキュラム学習 • カリキュラム学習によって性能が向上することを確認した。 31

32.

環境への適応性についての実験 • 潜在表現からリッチな環境情報をD e c o d e して、地盤形状と足周辺の状態の不確実度が、現実挙動と合致しているようにみえる • 枕木(?)に衝突することで、状態の不確実度が変化している。 – 赤丸: 足周辺の土形状、青丸: 足の先端の位置、赤の三角: 状態の不確実度 32

33.

まとめ • Sim 2 R e alを用いて、4 足歩行ロボットの制御方策を学習し、実機でも汎化性能を確認した。 • visionなど外部センサを利用せずに制御を行った。 33

34.

所感 • Sim 2 R e alでうまくいく問題設定・アーキテクチャの設計が素晴らしいと思う • B o s t o n D ynam i cs のs p o t は、おそらく学習を使わずに動くコントローラをつくりあげている • RLのタスクとして、他のタスクと比べて4 足歩行がどの程度難しいものなのかいまいちわからず.. 34

35.

参考文献 • L ear ni ng quadr uped al l ocom ot i on over chal l engi ng t er r ai n – h ttp s ://r o b o tics .sciencemag .or g /co n tent/ 5 /47 /eabc5 98 6/tab -f ig ur esdata • A n em pi r i cal eval uat i on of gener i c convol ut i onal and r ecur r ent networks for sequence modeling – h ttp s ://ar x iv .or g /ab s/ 18 03 .0 12 71 • A Reactive Controller Framework for Quadrupedal Locomotion on C hal l engi ng Ter r ai n – h t t p s : / / i i t - d l s l a b . g i t h u b . i o / p a p e r s / b a r a s u o l 1 3i c r a . p d f • D ynam i c l ocom ot i on t hr ough onl i ne nonl i near m ot i on opt i m i zat i on f or quadr upedal r obot s – https://www.researchcollection.eth z.ch /b itstr eam/h and le/20.5 00.11 850 /22 1541 /b ellicos or a l . p d f ? s e q u e n c e = 8 & i s A l l ow e d =y 35