[DL輪読会]Inverse Constrained Reinforcement Learning

526 Views

July 09, 21

#deep learning #Deep Learning #Reinforcement Learning #Cost Function #Transfer Learning #Efficiency

スライド概要

2021/07/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] 論⽂紹介：Inverse Constrained Reinforcement Learning Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題⽬： Inverse Constrained Reinforcement Learning 著者： Usman Anwar, Shehryar Malik, Alireza Aghasi, and Ali Ahmed 採録： ICML2021 accepted 概要： • 連続⾏動空間でコスト関数の推定⼿法を定式化 • 重点サンプリングと学習の早期打ち切りによる学習の効率化 • コスト関数の転移学習において⾼い性能を発揮 ※注釈無しの図は本論⽂から抜粋 2

背景強化学習: 累積報酬の最大化を目的に学習問題点：現実世界の制約を考慮不可 ☹ 制約付き強化学習: 累積報酬を最大化しつつ、制約に関するコストを抑えて学習 →報酬の最大化と制約の考慮を両立問題点：コストの設計が試行錯誤的 ☹ 制約付き逆強化学習: エキスパートデータからコスト関数を推定し、制約付き強化学習を用いて学習 →最適なコストの設計、報酬の最大化、制約の考慮を達成 ☺ 3

制約付き逆強化学習（ICRL） CMDPで良い振る舞いをするためのコスト関数の推定制約付きマルコフ決定過程(CMDP): 通常のMDPをコスト関数𝑐で拡張制約条件を満たしつつ割引報酬和を最大化方策：コスト：コスト関数従来の試行錯誤的な設計ではなくエキスパートのデータを用いて推定本論文では𝜶 = 𝟎の場合を扱う constraint set （※報酬関数は設計済みと仮定）を定義して以下の問題を解く 4

コスト関数の推論最尤推定に基づく定式化：制約条件のないMDP が最大となるデータセット定の確率分布をを検討とするがMaxEntに基づくと仮エキスパートの軌跡制約条件最大エントロピー（MaxEnt）逆強化学習モデルに属する軌跡に対しては 0 5

連続⾏動空間での定式化対数尤度：ニューラルネットワークを用いてを近似：二項分類器を用いての制約条件への合致を0,1で判断するように学習 → 勾配： 6

学習時の⼯夫重点サンプリング: 過去の方策近似からサンプルされたデータを用いて勾配を学習の早期打ち切り: forwardとreverse KL-divergenceに閾値を設定大幅なパラメータ更新による性能劣化を防止 7

ICRLのアルゴリズム方策のパラメータ更新本論文ではPPO-Lagrangianを使用コスト関数の更新重点サンプリングの重みを計算勾配計算 Early stoppingの判定 8

数値実験 - 学習環境 - 学習環境：制約に関する情報なし評価環境：制約を違反するとエピソードが終了学習時に制約を考慮しないと評価環境では累積報酬を獲得できない → 制約を考慮すれば報酬を獲得できる問題設定 9

10.

数値実験 - 評価指標性能評価指標： 1) 制約付きマルコフ決定過程（CMDP）における累積報酬 2) 制約条件を違反した平均回数学習⼿法： ICRL：本論⽂の提案⼿法 BC（Binary Classifier）：交差エントロピー誤差のみを⽤いた⼿法 GC（GAIL-Constraint）：報酬と制約を同時に扱う⼿法制約を回避すれば０に近づく → が増加 10

11.

制約付き逆強化学習の結果各⼿法で⽅策とコスト関数を学習 → (b) HalfCheetah, (c) Ant でICRLとGCは⾼い性能を発揮累積報酬制約違反の回数 11

12.

コスト関数の転移学習結果制約付き逆強化学習で得たコスト関数を⽤いて (a) Point, (b) Ant-Broken で転移学習 → ICRLで得たコスト関数を⽤いると⾼い性能を発揮累積報酬制約違反の回数 12

13.

学習効率化の有効性の検証重点サンプリング（IS）, 学習の早期打ち切り（ES）を使⽤せず学習し⽐較 ➝ どちらも学習の効率化に有効累積報酬制約違反の回数 13

14.

まとめコスト関数の最尤推定において、制約条件に対する判別器を導⼊ → 連続⾏動空間でコスト関数の推定⼿法を定式化学習アルゴリズムに重点サンプリングと学習の早期打ち切りを導⼊ → 既存⼿法より学習を効率化学習したコスト関数を⽤いて転移学習を実施 → エキスパートと同程度の⾼い性能を発揮 14