[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking

213 Views

March 14, 22

スライド概要

2022/03/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] 論文紹介 Autonomous Reinforcement Learning: Formalism and Benchmarking Ryoichi Takase, The University of Tokyo http://deeplearning.jp/ 1

2.

書誌情報 題目: 著者: Autonomous Reinforcement Learning: Formalism and Benchmarking Archit Sharma*1, Kelvin Xu*2, Nikhil Sardana1, Abhishek Gupta3, Karol Hausman4, Sergey Levine2, Chelsea Finn1 1Stanford University 2University of California, Berkeley 3MIT 4Google Brain *Equal contribution 採録: ICLR2022 accepted 概要: Autonomous Reinforcement Learning (ARL) を定式化 タスクの学習中に環境のリセットを(ほとんど)行わない問題設定 ARLを用いた学習の利点や改善点を考察 ※注釈無しの図は本論文から抜粋 2

3.

背景 強化学習の利点: 人間や動物のように試行錯誤から複雑な行動の獲得が可能 強化学習の課題: 現実世界での学習を模擬しているがギャップが大きい 現実世界:継続的で周期的ではない環境 強化学習:周期的に環境がリセットされる(エージェントは多数回の試行が可能) → 強化学習を現実世界に適用するにはギャップを埋める作業が必要 エンジニアリングのコストがかかる この論文はリセットに焦点を当てギャップを小さくすることが目的 ※本論文では自律性が高い≒学習環境のリセット回数が少ない 3

4.

背景:具体例 ロボットを用いた家の掃除・整理の学習 理想: ロボットが自律的に家を探索、掃除道具を理解 → プロセス全体を通して優れた方策を自身で獲得、家(環境)の変化に対応可能 典型的な強化学習の実験: 人間による介入(エンジニアリング)が必要 → エージェントは初期条件に一貫してリセットされる、家(環境)の変化に自律的には対応が 困難 理想と強化学習の実験の差が大きい 4

5.

研究目的 自律性を考慮した強化学習の研究状況: 強化学習の自律性を評価する一貫した性能指標やベンチマークが存在しない 研究目的: 現実世界と強化学習での学習のギャップを埋める 周期的ではない(non-episodic)環境における学習の定式化、ベンチマークの開発 → 自律性を考慮した強化学習のアルゴリズムの開発を促進・結果の信頼度を高める 5

6.

自律的な強化学習のMDP 一般的な強化学習のMarkov Decision Process (MDP): ただし 𝑠0 ~𝜌, 𝑎𝑡 ~𝜋(⋅ |𝑠𝑡 ), 𝑠𝑡+1~𝑝(⋅ |𝑠𝑡 , 𝑎𝑡 ) 𝑡 目的関数 𝐽 𝜋 = 𝔼[σ∞ 𝑡=0 𝛾 𝑟(𝑠𝑡 , 𝑎𝑡 )] を最大化 初期状態は 𝑠0~𝜌 で毎回リセットされる 𝒮: 状態空間 𝒜:行動空間 𝑝:状態遷移確率 𝑟:報酬関数 𝜌:初期状態の分布確率 𝛾:割引率 自律的(non-episodic)な強化学習のMDP: 初期状態は 𝑠0 ~𝜌 でサンプルされ、𝑠0 , 𝑎0 , 𝑠1 , 𝑎1 , … (𝑡 → ∞) と継続される 学習アルゴリズム 𝔸: {𝑠𝑖 , 𝑎𝑖 , 𝑠𝑖+1, 𝑟𝑖 }𝑡−1 𝑖=0 ↦ (𝑎𝑡 , 𝜋𝑡 ) 𝑎𝑡 : 環境で実行される行動 𝜋𝑡 : 時刻𝑡での方策(評価で使用される) 6

7.

定式化 2つの問題設定・性能評価指標を定義 1)Deployment setting: 周期的でない環境で学習後、周期性のあるテスト環境に適用して性能評価 → 一回のタスクで発揮できる能力を評価 目的:テスト環境において高性能を発揮する方策の学習 掃除ロボットの例:散らかった家を掃除する能力を評価 2)Continued learning setting: 周期的でない環境で学習し、性能評価 → 継続的に性能を保つ能力を評価 目的:持続的に高性能を発揮する方策の学習 掃除ロボットの例:家の清潔さを持続的に保つ能力を評価 7

8.

定式化 2つの問題設定・性能評価指標を定義 1)Deployed policy evaluation: ただし、 → 理想の方策𝜋 ∗との差が小さいほど高性能 2)Continuing policy evaluation: ただし、 → 値が大きいほど高性能 ※性能評価で𝜋𝑡 は使用されない 8

9.

例外の扱い方 周期性の介入: 𝜀を導入して周期的な介入を表現 𝜀が小さい → より自律的であることを意味 𝑝:状態遷移確率 𝜌:初期状態の分布確 率 𝟏/𝜺がリセットまでのステップ数と解釈可能: 一般的な強化学習の環境は100~1000ステップでリセット → 𝜀が1e-3~1e-2に対応 9

10.

数値実験 環境のリセット周期が学習性能に与える影響を考察 アルゴリズム:soft actor-critic(SAC) タスク:cheetah、fish 通常のSACの結果(左図): リセットまでのステップ数が大きくなるにつれて学習が不安定 Biased TD update 1000ステップ毎: Biased TD updateの結果(中央・右図): それ以外: cheetah(infinite-horizonな環境)→性能改善 fish(goal-reachingなタスク)→性能は改善されない 10

11.

Environments for Autonomous Reinforcement Learning (EARL) 代表的な自律学習タスクの設定: 現実世界での自律学習を想定した幅広い種類のタスク 性能評価指標は1)Deployment setting, 2)Continuing learning setting Tabletop-Organization (TO): 指定された4か所にマグカップを移動 Franka-Kitchen (FK): 電子レンジやドアの開放 Sawyer-Door (SD): ドアの施錠 Dhand-LightBulb (DL): ランプに電球を挿入 Sawyer-Peg (SP): 目標位置にペグを挿入 Minitaur-Pen (MP): ペンを目標位置に移動 11

12.

数値実験 学習のセットアップ 少ない周期性の介入を仮定 𝐻𝑚𝑎𝑥:トータルのステップ数 𝐻𝑇 :リセットまでのステップ数 𝐻𝐸 :評価時のステップ数 評価指標 𝐻 𝑚𝑎𝑥 Deployed policy evaluation:𝔻 𝔸 = σ𝑡=0 (𝐽𝐷 𝜋 ∗ − 𝐽𝐷 𝜋𝑡 ) 𝐻 𝑚𝑎𝑥 Continuing policy evaluation: ℂ 𝔸 = σ𝑡=0 𝑟(𝑠𝑡 , 𝑎𝑡 ) 𝐻 𝐸 (結果の表では𝐽𝐷 𝜋𝑡=𝐻𝑚𝑎𝑥 = σ𝑡=0 𝑟(𝑠𝑡 , 𝑎𝑡 )を比 較) アルゴリズム naïve RL: oracle RL: FBRL (forward-backward RL): R3L (perturbation controller): VaPRL (value-accelerated persistent RL): ARLのアルゴリズム Biased TD-update 環境を𝐻𝐸 ステップでリセット (deployed policy evaluationのみ) 通常の方策と、環境リセットのための行動を実行する方策 Perturbation controllerを導入し、未踏の状態の探索を奨励 サブタスクを設定し、タスクを効率的に学習 12

13.

数値実験:Deployed Policy Evaluation VaPRLのtabletop-organization (TO)とR3Lのminitaur-pen (MP)はoracle RLより高性能 結果の傾向:デモの利用が可能→ VaPRL デモの利用が不可→ R3Lが良い性能を発揮 しかし、他のタスクではARLはoracle RLを下回る性能 → ベンチマークの性能を見る限りはARLの性能改善の余地あり 13

14.

数値実験:Continuing Policy Evaluation ARLは6個中4個のタスクで高性能を発揮 e.g., R3LのDhand-LightBulb (DL)とMinitaur-Pen (MP) → Continuing settingでは、未踏状態の探索の奨励は必ずしも性能低下にならない可能性を示唆 14

15.

ARLの性能低下を考察 ARLがoracle RLより性能が低下する理由を考察 oracle RLとFBRLの探索した状態空間の確立分布を比較 リセットあり:初期状態と目標状態の確率分布にとどまる傾向 リセットなし:エージェントはあてもなく彷徨うので、タスクの難易度が上がる傾向 → 環境のリセットは、エージェントが訪問する状態分布を初期状態と目標状態に近づける働きを 示唆 15

16.

初期状態の確率分布に対するロバスト性 Oracle、FBRL、VaPRLで得られた方策に対して、既定の初期状態確率分布から変更 Tabletop-organization (TO) のタスクでロバスト性を評価 ARLはoracle と比較して性能低下を抑えることに成功 → ARLの設定で学習が成功すると、よりロバストな方策が得られる可能性を示唆 各手法の性能低下の割合: Oracle: 37.4% 減 FBRL: 14.3 % 減 VaPRL: 2% 減 16

17.

まとめ Autonomous Reinforcement Learning (ARL) を定式化: タスクの学習中に環境のリセットを(ほとんど)行わない問題設定 1) Deployed setting 一回のタスクで発揮できる能力を評価 2) Continuing learning setting 継続的に性能を保つ能力を評価 ARLのベンチマークを提案: Environments for Autonomous Reinforcement Learning (EARL) 現実世界での自律学習を想定した幅広い種類のタスク 性能評価指標は1)Deployment setting, 2)Continuing learning setting 17