【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

>100 Views

March 12, 21

スライド概要

2021/03/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説 Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo http://deeplearning.jp/ 1

2.

書誌情報 題目: Responsive Safety in Reinforcement Learning by PID Lagrangian Methods 著者: Adam Stooke, Joshua Achiam, and Pieter Abbeel 採録: ICML2020 概要: • 制約条件を考慮した強化学習(Constrained RL) • ベースラインアルゴリズムのLagrangian methodについて、 制御工学におけるPID制御を応用することで性能を改善 選定理由: • Constrained RLを1次のダイナミクスとして再定義 • 制御工学と強化学習の観点から議論でき、本論文の応用先は広いと考えた ※注釈無しの図は本論文から抜粋 2

3.

問題設定 Constrained Markov Decision Processes (CMDP): 強化学習に制約条件を組み込んだもの 目的関数 方策: コスト: 以下の最適化問題を解く 3

4.

CMDPの具体例 ベースラインアルゴリズム: 1) Constrained Policy Optimization (CPO) 2) Lagrangian method 実装がCPOよりも簡単 コスト制約の追従に関して良い性能を発揮 Safety-Gym: 2019年のOpenAIが発表した安全制約を考慮する強化学習のベンチマーク問題 図はhttps://openai.com/blog/safety-gym/より抜粋 4

5.

PID-Lagrangian Methodの概要 従来のLagrangian Methodの課題 ➝コストの応答が振動的になる: コスト(応答) λ(制御入 力) 従来手法の未定乗数λの更新は積分制御に相当 g(x)の応答に対して制御入力の位相が90度遅れる 位相が遅れることは制御工学の安定性の観点から好ましくない 提案手法:PID-Lagrangian Method 未定乗数法λの更新でPID制御を導入 収束性を改善、振動を抑制 5

6.

ラグランジュの未定乗数法 制約条件付きの最適化問題: 未定乗数λを用いた制約条件なしの最適化問題: 勾配法を用いて数値的に計算する場合: 6

7.

既存の数値計算方法について 次式の微分方程式を考える: (1) (2) (1)を時間tで微分して(2)を代入する , ➝2次のダイナミクス 文献[1]より以下が示されている: • Aが正定値であれば制約条件を満たす解へ収束 • 振動的に収束することが多い [1] Platt, John C., and Alan H. Barr. "Constrained differential optimization." Proceedings of the 1987 International Conference on Neural Information Processing Systems. 1987. 7

8.

PID-Lagrangian Method 比例-積分型の方法: 現在の制約条件の値に比例項を加える 追加された項は正定なのでダンピングに関する極が増加して収束性を高め る 積分-微分型の方法: , 微分項が追加されるので即応性があがる 比例-積分-微分型の方法:➝理論的な解析は今後の課題とのこと 8

9.

フィードバック制御を用いたConstrained RL 1次のダイナミクス: F:方策更新に関する式 h:フィードバック制御則 λ:制御入力 d:コストリミット 勾配法: 従来手法(積分制御): 9

10.

PID-Controlled Lagrange Multiplier スケーリングされた目的関数: , 10

11.

数値実験 Safety-Gym: 2019年のOpenAIが発表した安全制約を 考慮する強化学習のベンチマーク問題 実験で使用したアルゴリズム: PPOとConstraint-Controlled PPO (CPPO)で比較 11

12.

比例項による性能改善 比例項を加えることで目標コストへの追従性能を改善 Kiを大きくすると(コストの追従性能は良くなるが)Returnは小 さくなる 12

13.

報酬とコストのトレードオフ コストとリターンに対する指標: 比例項を加えることで性能を改善 13

14.

微分項による性能改善 微分項を加えることでコストに対するオーバーシュート・振動を 抑制 14

15.

Reward-Scale Invariance 方策勾配にスケーリングファクターを導 入: 報酬をスケールするとKi, Kp, Kdも同時 にスケールされてしまう課題を解決 15

16.

まとめ • 未定乗数法λの更新でPID制御則を導入 • Safety-gymで提案手法の性能を検証 • コスト目標値への収束性を改善 所感 • Constrained RLを1次のダイナミクスとして再定義したのがおもしろ かった • 現代制御・ロバスト制御理論と組み合わせることができそうと思った 16