>100 Views
October 30, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP Gradient Estimation with Discrete Stein Operators [DL Papers] Presenter: Manato Yaguchi, Matsuo-Iwasawa lab, M2 http://deeplearning.jp/
書誌情報 紹介論文 タイトル: STABILIZING REINFORCEMENT LEARNING IN DIFFERENTIABLE MULTIPHYSICS SIMULATION 出典: プロジェクトページ (ICLR2025 Spotlight) 著者: Eliot Xing, Vernon Luk, Jean Oh 概要 エントロピーを加味した1次勾配を用いたRL手法「SAPO」の定式化を行い、学習の安定化に寄 与することを実験的に示した. (Today’s Main Focus) 並列化可能かつ微分可能なMultiphysics シミュレータ (Rewarped)を開発した. 剛体だけでなく、滑らかな物体も扱える. ※画像は出典記載のないものは、本論文から引用 2
問題設定 / Notation 前提 MDPの枠組みで考える: (𝑆, 𝐴, 𝑃, 𝑅, 𝜌0 , 𝛾) S: 状態, a: 行動, 𝑃: 𝑆 × 𝐴 → 𝑆 を確率遷移関数, 𝑅: 𝑆 × 𝐴 → 𝑅 を報酬関数, 𝜌0 𝑠 を初期状 態分布, 𝛾: 割引率 とする. 解きたいもの 𝜋: 𝑆 → 𝐴 を方策, 𝑟𝑡 = 𝑅(𝑠𝑡 , 𝑎𝑡 ) と表記する. 𝑡 𝔼𝜋 [σ∞ 𝛾 𝑟𝑡 ] を最大化する方策 𝜋 を得たい. 𝑡=0 実験する際には、無限回のシミュレーションは不可能なので、有限のステップに対する報酬の最大化を 考える 𝑡 𝑅0:𝑇 = σ𝑇−1 𝑡=0 𝛾 𝑟𝑡 , 方策𝜋でのTステップのシミュレーションによる軌跡を 𝜏, この時の(s,a)の分布を 𝜌𝜋 とすると、 𝐽 𝜋 = 𝔼𝜏~𝜌𝜋 [𝑅0:𝑇 ] を最大化するように、方策 𝜋𝜃 のパラメータ 𝜃 を最適化する. 3
Background: 方策勾配法 / 0次勾配
考えること:
を最大化するために、方策\pi_{\theta}を最適化する.
そのために、 ∇𝜃 𝐽 𝜋 を正確に計算したい.
はQ関数.
を方策勾配法という.
実験上は、a, sの積分計算はできない => 有限回のシミュレートで計算
0次勾配 (ZOBG) と、N sampleによるMonte-Carlo推定(REINFORCE)により求める.
ポイント:勾配を求める際に状態 s に関する微分を考えない (状態に関して0次の微分を使う)
4
Background: 1次勾配 考えること: を最大化するために、方策 𝜋𝜃 を最適化する. そのために、∇𝜃 𝐽 𝜋 を正確に計算したい. 方策 𝜋𝜃 ではなく、報酬 R にパラメータ微分を押し付ける. (0次と1次の違い) 報酬 Rは状態 sの関数 => 状態の1次の微分を考えることを意味する. 環境の遷移のダイナミクスP, 報酬 R が、状態に関して、常に微分可能である必要がある. 微分可能でない場合は、その分だけバイアスが入ることになる. 言い換えると、モデルベース強化学習の場合、シミュレータが微分可能である必要がある 扱うシミュレータが、常に微分可能とは限らない (ex. 接触の扱いなど, 具体的にはclipや、if文の条件分岐 など) 提案手法 SAPOは 1次勾配ベースの手法なので、微分可能シミュレータを用いることを前提とする 5
Background: 代表的な1次勾配手法 Analytic Policy Gradient (APG) 本来最適化したいTステップ分のシミュレーションによる報酬の代わりに、より短いホライゾン H でtruncate し たものを1次勾配により最大化する. なぜか:安定性のため。 (ホライゾンが長くなると、1次勾配がよりカオスになる. バイアスを犠牲にして、安定 性を高める) Short-Horizon Actor-Critic (SHAC) 短いホライゾンHでtruncateするのは、APGと同じ。Hステップ以降は、価値関数Vにより近似する. Policy と 価値関数を、Actor-critic の枠組みで交互に最適化する. 価値関数 𝑉෨ は、TD(𝜆)により推定する. 6
提案手法:SAPOの定式化 一言で言うと、SAPOはSHACに、エントロピー項を加えたもの. H ステップでtruncateされたReturnは、以下で表される. 𝐻𝜋 はシャノンエントロピー. 𝛼は自動で調整する. Q関数と、価値関数もエントロピーを加味したものに置き換えて計算する. Hステップ以降を価値関数で近似する項を加えて、以下の式を、1次勾配により最適化する. 7
提案手法:SAPOの詳細 アルゴリズムの実装に関して、5点を言及. (基本的にはSHACをベースに変更) エントロピー項の調整 ෩ 以上のエントロピーという制約のもと、双対問題として以下を最適化する. 𝐻 エントロピーの正規化: 安定性のため(?)、エントロピーが0~1 になるように正規化 方策分布の表現の仕方について 方策を表現するガウス分布について、状態依存の標準偏差を持つように変更(エントロピー項を入れたから、状態 依存にしても極端に小さくなりづらい(?) Critic (価値関数)の設計に関して target networkを削除 (収束が早い代わりに、安定性が犠牲になる) モデルの構造と最適化に関して 活性化関数をELU -> SiLUに変更, grad normのclipを、1.0->0.5に変更 8
並列可能な微分シミュレータ NVIDIA Warp を基に、並列可能な微分シミュレータ Rewarpedを提案 剛体だけでなく、柔軟物体に対しても並列可能な形で実装した 9
実験 微分可能シミュレータ Rewarped上での実験 AntRun, HandReorientは、剛体のみに関するタスク. 他は柔軟物体などを含むタスク. 10
実験 HandFlipタスクを用いたAblation study このタスクの場合、エントロピーの有無で大きく変わる 11
実験:Loss ランドスケープの可視化 エントロピーを導入した動機は、Loss のパラメータに関する微分が滑らかに なること 方策のパラメータ空間において、ランダ ムな2方向への摂動に対するLossラ ンドスケープを可視化 12
まとめ, 感想 まとめ エントロピーを加味した1次勾配RLアルゴリズム SAPO を提案. 並列可能かつ微分可能なシミュレータ Rewarpedを開発し、実験の効率化を図った. 感想 SHACから色々変えているので、エントロピー項による影響がどの程度なのか分かりにくい HandFlipでAblation studyを行っているが、他の例が気になる 実験の評価は、(おそらく) 確率的方策に対して行ったものだが、決定論的方策に対してやった 方が良い 特に、SHACとの比較を考えたとき、SAPOはエントロピー項を加えている分、分散が大きくなりやすいため シミュレータという観点から、あまりしっかり読めなかったので、理解を深めたい 13