[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking

371 Views

March 14, 22

#deep learning #Autonomous Reinforcement Learning #Benchmarking #Formalism #Machine Learning #Artificial Intelligence

スライド概要

2022/03/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 45.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] 論文紹介 Autonomous Reinforcement Learning: Formalism and Benchmarking Ryoichi Takase, The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題目：著者： Autonomous Reinforcement Learning: Formalism and Benchmarking Archit Sharma*1, Kelvin Xu*2, Nikhil Sardana1, Abhishek Gupta3, Karol Hausman4, Sergey Levine2, Chelsea Finn1 1Stanford University 2University of California, Berkeley 3MIT 4Google Brain *Equal contribution 採録： ICLR2022 accepted 概要： Autonomous Reinforcement Learning (ARL) を定式化タスクの学習中に環境のリセットを(ほとんど)行わない問題設定 ARLを用いた学習の利点や改善点を考察 ※注釈無しの図は本論文から抜粋 2

背景強化学習の利点：人間や動物のように試行錯誤から複雑な行動の獲得が可能強化学習の課題：現実世界での学習を模擬しているがギャップが大きい現実世界：継続的で周期的ではない環境強化学習：周期的に環境がリセットされる（エージェントは多数回の試行が可能） → 強化学習を現実世界に適用するにはギャップを埋める作業が必要エンジニアリングのコストがかかるこの論文はリセットに焦点を当てギャップを小さくすることが目的 ※本論文では自律性が高い≒学習環境のリセット回数が少ない 3

背景：具体例ロボットを用いた家の掃除・整理の学習理想：ロボットが自律的に家を探索、掃除道具を理解 → プロセス全体を通して優れた方策を自身で獲得、家（環境）の変化に対応可能典型的な強化学習の実験：人間による介入（エンジニアリング）が必要 → エージェントは初期条件に一貫してリセットされる、家（環境）の変化に自律的には対応が困難理想と強化学習の実験の差が大きい 4

研究目的自律性を考慮した強化学習の研究状況：強化学習の自律性を評価する一貫した性能指標やベンチマークが存在しない研究目的：現実世界と強化学習での学習のギャップを埋める周期的ではない（non-episodic）環境における学習の定式化、ベンチマークの開発 → 自律性を考慮した強化学習のアルゴリズムの開発を促進・結果の信頼度を高める 5

自律的な強化学習のMDP 一般的な強化学習のMarkov Decision Process (MDP)：ただし 𝑠0 ~𝜌, 𝑎𝑡 ~𝜋(⋅ |𝑠𝑡 ), 𝑠𝑡+1~𝑝(⋅ |𝑠𝑡 , 𝑎𝑡 ) 𝑡 目的関数 𝐽 𝜋 = 𝔼[σ∞ 𝑡=0 𝛾 𝑟(𝑠𝑡 , 𝑎𝑡 )] を最大化初期状態は 𝑠0~𝜌 で毎回リセットされる 𝒮: 状態空間 𝒜：行動空間 𝑝：状態遷移確率 𝑟：報酬関数 𝜌：初期状態の分布確率 𝛾：割引率自律的（non-episodic）な強化学習のMDP：初期状態は 𝑠0 ~𝜌 でサンプルされ、𝑠0 , 𝑎0 , 𝑠1 , 𝑎1 , … (𝑡 → ∞) と継続される学習アルゴリズム 𝔸: {𝑠𝑖 , 𝑎𝑖 , 𝑠𝑖+1, 𝑟𝑖 }𝑡−1 𝑖=0 ↦ (𝑎𝑡 , 𝜋𝑡 ) 𝑎𝑡 : 環境で実行される行動 𝜋𝑡 : 時刻𝑡での方策（評価で使用される） 6

定式化２つの問題設定・性能評価指標を定義 1）Deployment setting：周期的でない環境で学習後、周期性のあるテスト環境に適用して性能評価 → 一回のタスクで発揮できる能力を評価目的：テスト環境において高性能を発揮する方策の学習掃除ロボットの例：散らかった家を掃除する能力を評価 2）Continued learning setting：周期的でない環境で学習し、性能評価 → 継続的に性能を保つ能力を評価目的：持続的に高性能を発揮する方策の学習掃除ロボットの例：家の清潔さを持続的に保つ能力を評価 7

定式化２つの問題設定・性能評価指標を定義 1）Deployed policy evaluation：ただし、 → 理想の方策𝜋 ∗との差が小さいほど高性能 2）Continuing policy evaluation：ただし、 → 値が大きいほど高性能 ※性能評価で𝜋𝑡 は使用されない 8

例外の扱い方周期性の介入： 𝜀を導入して周期的な介入を表現 𝜀が小さい → より自律的であることを意味 𝑝：状態遷移確率 𝜌：初期状態の分布確率 𝟏/𝜺がリセットまでのステップ数と解釈可能：一般的な強化学習の環境は100~1000ステップでリセット → 𝜀が1e-3～1e-2に対応 9

10.

数値実験環境のリセット周期が学習性能に与える影響を考察アルゴリズム：soft actor-critic（SAC）タスク：cheetah、fish 通常のSACの結果（左図）：リセットまでのステップ数が大きくなるにつれて学習が不安定 Biased TD update 1000ステップ毎： Biased TD updateの結果（中央・右図）：それ以外： cheetah（infinite-horizonな環境）→性能改善 fish（goal-reachingなタスク）→性能は改善されない 10

11.

Environments for Autonomous Reinforcement Learning (EARL) 代表的な自律学習タスクの設定: 現実世界での自律学習を想定した幅広い種類のタスク性能評価指標は1）Deployment setting, 2）Continuing learning setting Tabletop-Organization (TO): 指定された４か所にマグカップを移動 Franka-Kitchen (FK): 電子レンジやドアの開放 Sawyer-Door (SD): ドアの施錠 Dhand-LightBulb (DL): ランプに電球を挿入 Sawyer-Peg (SP): 目標位置にペグを挿入 Minitaur-Pen (MP): ペンを目標位置に移動 11

12.

数値実験学習のセットアップ少ない周期性の介入を仮定 𝐻𝑚𝑎𝑥：トータルのステップ数 𝐻𝑇 ：リセットまでのステップ数 𝐻𝐸 ：評価時のステップ数評価指標 𝐻 𝑚𝑎𝑥 Deployed policy evaluation:𝔻 𝔸 = σ𝑡=0 (𝐽𝐷 𝜋 ∗ − 𝐽𝐷 𝜋𝑡 ) 𝐻 𝑚𝑎𝑥 Continuing policy evaluation: ℂ 𝔸 = σ𝑡=0 𝑟(𝑠𝑡 , 𝑎𝑡 ) 𝐻 𝐸 （結果の表では𝐽𝐷 𝜋𝑡=𝐻𝑚𝑎𝑥 = σ𝑡=0 𝑟(𝑠𝑡 , 𝑎𝑡 )を比較）アルゴリズム naïve RL： oracle RL: FBRL (forward-backward RL)： R3L (perturbation controller)： VaPRL (value-accelerated persistent RL)： ARLのアルゴリズム Biased TD-update 環境を𝐻𝐸 ステップでリセット (deployed policy evaluationのみ) 通常の方策と、環境リセットのための行動を実行する方策 Perturbation controllerを導入し、未踏の状態の探索を奨励サブタスクを設定し、タスクを効率的に学習 12

13.

数値実験：Deployed Policy Evaluation VaPRLのtabletop-organization (TO)とR3Lのminitaur-pen (MP)はoracle RLより高性能結果の傾向：デモの利用が可能→ VaPRL デモの利用が不可→ R3Lが良い性能を発揮しかし、他のタスクではARLはoracle RLを下回る性能 → ベンチマークの性能を見る限りはARLの性能改善の余地あり 13

14.

数値実験：Continuing Policy Evaluation ARLは６個中４個のタスクで高性能を発揮 e.g., R3LのDhand-LightBulb (DL)とMinitaur-Pen (MP) → Continuing settingでは、未踏状態の探索の奨励は必ずしも性能低下にならない可能性を示唆 14

15.

ARLの性能低下を考察 ARLがoracle RLより性能が低下する理由を考察 oracle RLとFBRLの探索した状態空間の確立分布を比較リセットあり：初期状態と目標状態の確率分布にとどまる傾向リセットなし：エージェントはあてもなく彷徨うので、タスクの難易度が上がる傾向 → 環境のリセットは、エージェントが訪問する状態分布を初期状態と目標状態に近づける働きを示唆 15

16.

初期状態の確率分布に対するロバスト性 Oracle、FBRL、VaPRLで得られた方策に対して、既定の初期状態確率分布から変更 Tabletop-organization (TO) のタスクでロバスト性を評価 ARLはoracle と比較して性能低下を抑えることに成功 → ARLの設定で学習が成功すると、よりロバストな方策が得られる可能性を示唆各手法の性能低下の割合： Oracle： 37.4% 減 FBRL： 14.3 % 減 VaPRL： 2% 減 16

17.

まとめ Autonomous Reinforcement Learning (ARL) を定式化：タスクの学習中に環境のリセットを(ほとんど)行わない問題設定 1) Deployed setting 一回のタスクで発揮できる能力を評価 2) Continuing learning setting 継続的に性能を保つ能力を評価 ARLのベンチマークを提案： Environments for Autonomous Reinforcement Learning (EARL) 現実世界での自律学習を想定した幅広い種類のタスク性能評価指標は1）Deployment setting, 2）Continuing learning setting 17