[DL輪読会]Inverse Constrained Reinforcement Learning

156 Views

July 09, 21

スライド概要

2021/07/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] 論⽂紹介:Inverse Constrained Reinforcement Learning Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo http://deeplearning.jp/ 1

2.

書誌情報 題⽬: Inverse Constrained Reinforcement Learning 著者: Usman Anwar, Shehryar Malik, Alireza Aghasi, and Ali Ahmed 採録: ICML2021 accepted 概要: • 連続⾏動空間でコスト関数の推定⼿法を定式化 • 重点サンプリングと学習の早期打ち切りによる学習の効率化 • コスト関数の転移学習において⾼い性能を発揮 ※注釈無しの図は本論⽂から抜粋 2

3.

背景 強化学習: 累積報酬の最大化を目的に学習 問題点:現実世界の制約を考慮不可 ☹ 制約付き強化学習: 累積報酬を最大化しつつ、制約に関するコストを抑えて学 習 →報酬の最大化と制約の考慮を両立 問題点:コストの設計が試行錯誤的 ☹ 制約付き逆強化学習: エキスパートデータからコスト関数を推定し、制約付き強化学習を用い て学習 →最適なコストの設計、報酬の最大化、制約の考慮を達成 ☺ 3

4.

制約付き逆強化学習(ICRL) CMDPで良い振る舞いをするためのコスト関数の推定 制約付きマルコフ決定過程(CMDP): 通常のMDPをコスト関数𝑐で拡張 制約条件を満たしつつ割引報酬和を最大化 方策: コスト: コスト関数 従来の試行錯誤的な設計ではなく エキスパートのデータを用いて推定 本論文では𝜶 = 𝟎の場合を扱う constraint set (※報酬関数は設計済みと仮定) を定義して以下の問題を解く 4

5.

コスト関数の推論 最尤推定に基づく定式化: 制約条件のないMDP が最大となる データセット 定 の確率分布を を検討 とする がMaxEntに基づくと仮 エキスパートの軌 跡 制約条件 最大エントロピー(MaxEnt)逆強化学習モデル に属する軌跡に対しては 0 5

6.

連続⾏動空間での定式化 対数尤度: ニューラルネットワークを用いて を近 似: 二項分類器 を用いて の制約条件への合致を0,1で判断するように学習 → 勾配: 6

7.

学習時の⼯夫 重点サンプリング: 過去の方策 近似 からサンプルされたデータを用いて勾配を 学習の早期打ち切り: forwardとreverse KL-divergenceに閾値を設定 大幅なパラメータ更新による性能劣化を防止 7

8.

ICRLのアルゴリズム 方策のパラメータ更新 本論文ではPPO-Lagrangianを使用 コスト関数の更新 重点サンプリングの重みを計算 勾配計算 Early stoppingの判定 8

9.

数値実験 - 学習環境 - 学習環境: 制約に関する情報なし 評価環境: 制約を違反するとエピソードが終了 学習時に制約を考慮しないと評価環境では累積報酬を獲得できない → 制約を考慮すれば報酬を獲得できる問題設定 9

10.

数値実験 - 評価指標 性能評価指標: 1) 制約付きマルコフ決定過程(CMDP)における累積 報酬 2) 制約条件を違反した平均回数 学習⼿法: ICRL:本論⽂の提案⼿法 BC(Binary Classifier):交差エントロピー誤差のみを⽤い た⼿法 GC(GAIL-Constraint):報酬と制約を同時に扱う⼿法 制約を回避すれば0に近づく → が増加 10

11.

制約付き逆強化学習の結果 各⼿法で⽅策とコスト関数を学習 → (b) HalfCheetah, (c) Ant でICRLとGCは⾼い性能を発揮 累積報酬 制約違反の回数 11

12.

コスト関数の転移学習結果 制約付き逆強化学習で得たコスト関数を⽤いて (a) Point, (b) Ant-Broken で転移学 習 → ICRLで得たコスト関数を⽤いると⾼い性能を発揮 累積報酬 制約違反の回数 12

13.

学習効率化の有効性の検証 重点サンプリング(IS), 学習の早期打ち切り(ES)を使⽤せず学習 し⽐較 ➝ どちらも学習の効率化に有効 累積報酬 制約違反の回数 13

14.

まとめ コスト関数の最尤推定において、制約条件に対する判別器を導⼊ → 連続⾏動空間でコスト関数の推定⼿法を定式化 学習アルゴリズムに重点サンプリングと学習の早期打ち切りを導⼊ → 既存⼿法より学習を効率化 学習したコスト関数を⽤いて転移学習を実施 → エキスパートと同程度の⾼い性能を発揮 14