【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

129 Views

March 12, 21

#deep learning #Deep Learning #Reinforcement Learning #Safety in RL #PID-Lagrangian Method #Constrained RL

スライド概要

2021/03/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.2K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.8K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 41.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説 Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題目： Responsive Safety in Reinforcement Learning by PID Lagrangian Methods 著者： Adam Stooke, Joshua Achiam, and Pieter Abbeel 採録： ICML2020 概要： • 制約条件を考慮した強化学習(Constrained RL) • ベースラインアルゴリズムのLagrangian methodについて、制御工学におけるPID制御を応用することで性能を改善選定理由： • Constrained RLを１次のダイナミクスとして再定義 • 制御工学と強化学習の観点から議論でき、本論文の応用先は広いと考えた ※注釈無しの図は本論文から抜粋 2

問題設定 Constrained Markov Decision Processes (CMDP): 強化学習に制約条件を組み込んだもの目的関数方策：コスト：以下の最適化問題を解く 3

CMDPの具体例ベースラインアルゴリズム: 1) Constrained Policy Optimization (CPO) 2) Lagrangian method 実装がCPOよりも簡単コスト制約の追従に関して良い性能を発揮 Safety-Gym: 2019年のOpenAIが発表した安全制約を考慮する強化学習のベンチマーク問題図はhttps://openai.com/blog/safety-gym/より抜粋 4

https://openai.com/blog/safety-gym/

PID-Lagrangian Methodの概要従来のLagrangian Methodの課題 ➝コストの応答が振動的になる：コスト(応答) λ（制御入力）従来手法の未定乗数λの更新は積分制御に相当 g(x)の応答に対して制御入力の位相が９０度遅れる位相が遅れることは制御工学の安定性の観点から好ましくない提案手法：PID-Lagrangian Method 未定乗数法λの更新でPID制御を導入収束性を改善、振動を抑制 5

ラグランジュの未定乗数法制約条件付きの最適化問題：未定乗数λを用いた制約条件なしの最適化問題：勾配法を用いて数値的に計算する場合： 6

既存の数値計算方法について次式の微分方程式を考える：（１）（２）（１）を時間ｔで微分して（２）を代入する， ➝２次のダイナミクス文献[１]より以下が示されている： • Aが正定値であれば制約条件を満たす解へ収束 • 振動的に収束することが多い [1] Platt, John C., and Alan H. Barr. "Constrained differential optimization." Proceedings of the 1987 International Conference on Neural Information Processing Systems. 1987. 7

PID-Lagrangian Method 比例-積分型の方法：現在の制約条件の値に比例項を加える追加された項は正定なのでダンピングに関する極が増加して収束性を高める積分-微分型の方法：，微分項が追加されるので即応性があがる比例-積分-微分型の方法：➝理論的な解析は今後の課題とのこと 8

フィードバック制御を用いたConstrained RL １次のダイナミクス： F：方策更新に関する式 h：フィードバック制御則 λ：制御入力 d：コストリミット勾配法：従来手法（積分制御）： 9

10.

PID-Controlled Lagrange Multiplier スケーリングされた目的関数：， 10

11.

数値実験 Safety-Gym: 2019年のOpenAIが発表した安全制約を考慮する強化学習のベンチマーク問題実験で使用したアルゴリズム： PPOとConstraint-Controlled PPO (CPPO)で比較 11

12.

比例項による性能改善比例項を加えることで目標コストへの追従性能を改善 Kiを大きくすると（コストの追従性能は良くなるが）Returnは小さくなる 12

13.

報酬とコストのトレードオフコストとリターンに対する指標：比例項を加えることで性能を改善 13

14.

微分項による性能改善微分項を加えることでコストに対するオーバーシュート・振動を抑制 14

15.

Reward-Scale Invariance 方策勾配にスケーリングファクターを導入：報酬をスケールするとKi, Kp, Kdも同時にスケールされてしまう課題を解決 15

16.

まとめ • 未定乗数法λの更新でPID制御則を導入 • Safety-gymで提案手法の性能を検証 • コスト目標値への収束性を改善所感 • Constrained RLを１次のダイナミクスとして再定義したのがおもしろかった • 現代制御・ロバスト制御理論と組み合わせることができそうと思った 16