【DL輪読会】Gradient Estimation with Discrete Stein Operators

268 Views

October 30, 25

#強化学習 #方策勾配法 #1次勾配 #微分可能シミュレータ #SAPO

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP Gradient Estimation with Discrete Stein Operators [DL Papers] Presenter: Manato Yaguchi, Matsuo-Iwasawa lab, M2 http://deeplearning.jp/

http://deeplearning.jp/

書誌情報紹介論文  タイトル: STABILIZING REINFORCEMENT LEARNING IN DIFFERENTIABLE MULTIPHYSICS SIMULATION 出典: プロジェクトページ (ICLR2025 Spotlight) 著者: Eliot Xing, Vernon Luk, Jean Oh 概要  エントロピーを加味した1次勾配を用いたRL手法「SAPO」の定式化を行い、学習の安定化に寄与することを実験的に示した. (Today’s Main Focus)  並列化可能かつ微分可能なMultiphysics シミュレータ (Rewarped)を開発した.  剛体だけでなく、滑らかな物体も扱える. ※画像は出典記載のないものは、本論文から引用 2

https://rewarped.github.io/

問題設定 / Notation 前提  MDPの枠組みで考える: (𝑆, 𝐴, 𝑃, 𝑅, 𝜌0 , 𝛾)  S: 状態, a: 行動, 𝑃: 𝑆 × 𝐴 → 𝑆 を確率遷移関数, 𝑅: 𝑆 × 𝐴 → 𝑅 を報酬関数, 𝜌0 𝑠 を初期状態分布, 𝛾: 割引率とする. 解きたいもの  𝜋: 𝑆 → 𝐴 を方策, 𝑟𝑡 = 𝑅(𝑠𝑡 , 𝑎𝑡 ) と表記する. 𝑡  𝔼𝜋 [σ∞ 𝛾 𝑟𝑡 ] を最大化する方策 𝜋 を得たい. 𝑡=0  実験する際には、無限回のシミュレーションは不可能なので、有限のステップに対する報酬の最大化を考える 𝑡  𝑅0:𝑇 = σ𝑇−1 𝑡=0 𝛾 𝑟𝑡 , 方策𝜋でのTステップのシミュレーションによる軌跡を 𝜏, この時の(s,a)の分布を 𝜌𝜋 とすると、  𝐽 𝜋 = 𝔼𝜏~𝜌𝜋 [𝑅0:𝑇 ] を最大化するように、方策 𝜋𝜃 のパラメータ 𝜃 を最適化する. 3

[beta]

Background: 方策勾配法 / 0次勾配
 考えること：
を最大化するために、方策\pi_{\theta}を最適化する.
 そのために、 ∇𝜃 𝐽 𝜋 を正確に計算したい.


はQ関数.

を方策勾配法という.
 実験上は、a, sの積分計算はできない => 有限回のシミュレートで計算

 0次勾配 (ZOBG) と、N sampleによるMonte-Carlo推定(REINFORCE)により求める.
ポイント：勾配を求める際に状態 s に関する微分を考えない (状態に関して0次の微分を使う)

4

Background: 1次勾配  考えること：を最大化するために、方策 𝜋𝜃 を最適化する.  そのために、∇𝜃 𝐽 𝜋 を正確に計算したい.  方策 𝜋𝜃 ではなく、報酬 R にパラメータ微分を押し付ける. (0次と1次の違い)  報酬 Rは状態 sの関数 => 状態の1次の微分を考えることを意味する.  環境の遷移のダイナミクスP, 報酬 R が、状態に関して、常に微分可能である必要がある.  微分可能でない場合は、その分だけバイアスが入ることになる.  言い換えると、モデルベース強化学習の場合、シミュレータが微分可能である必要がある  扱うシミュレータが、常に微分可能とは限らない (ex. 接触の扱いなど, 具体的にはclipや、if文の条件分岐など)  提案手法 SAPOは 1次勾配ベースの手法なので、微分可能シミュレータを用いることを前提とする 5

Background: 代表的な1次勾配手法  Analytic Policy Gradient (APG)  本来最適化したいTステップ分のシミュレーションによる報酬の代わりに、より短いホライゾン H でtruncate したものを1次勾配により最大化する.  なぜか：安定性のため。 (ホライゾンが長くなると、1次勾配がよりカオスになる. バイアスを犠牲にして、安定性を高める)  Short-Horizon Actor-Critic (SHAC)  短いホライゾンHでtruncateするのは、APGと同じ。Hステップ以降は、価値関数Vにより近似する.  Policy と価値関数を、Actor-critic の枠組みで交互に最適化する.  価値関数 𝑉෨ は、TD(𝜆)により推定する. 6

提案手法：SAPOの定式化  一言で言うと、SAPOはSHACに、エントロピー項を加えたもの.  H ステップでtruncateされたReturnは、以下で表される.  𝐻𝜋 はシャノンエントロピー.  𝛼は自動で調整する.  Q関数と、価値関数もエントロピーを加味したものに置き換えて計算する.  Hステップ以降を価値関数で近似する項を加えて、以下の式を、1次勾配により最適化する. 7

提案手法：SAPOの詳細アルゴリズムの実装に関して、5点を言及. (基本的にはSHACをベースに変更)  エントロピー項の調整 ෩ 以上のエントロピーという制約のもと、双対問題として以下を最適化する. 𝐻  エントロピーの正規化: 安定性のため(?)、エントロピーが0~1 になるように正規化  方策分布の表現の仕方について  方策を表現するガウス分布について、状態依存の標準偏差を持つように変更(エントロピー項を入れたから、状態依存にしても極端に小さくなりづらい(?)  Critic (価値関数)の設計に関して  target networkを削除 (収束が早い代わりに、安定性が犠牲になる)  モデルの構造と最適化に関して  活性化関数をELU -> SiLUに変更, grad normのclipを、1.0->0.5に変更 8

並列可能な微分シミュレータ  NVIDIA Warp を基に、並列可能な微分シミュレータ Rewarpedを提案  剛体だけでなく、柔軟物体に対しても並列可能な形で実装した 9

10.

実験  微分可能シミュレータ Rewarped上での実験  AntRun, HandReorientは、剛体のみに関するタスク. 他は柔軟物体などを含むタスク. 10

11.

実験  HandFlipタスクを用いたAblation study  このタスクの場合、エントロピーの有無で大きく変わる 11

12.

実験：Loss ランドスケープの可視化  エントロピーを導入した動機は、Loss のパラメータに関する微分が滑らかになること  方策のパラメータ空間において、ランダムな2方向への摂動に対するLossランドスケープを可視化 12

13.

まとめ, 感想まとめ  エントロピーを加味した1次勾配RLアルゴリズム SAPO を提案.  並列可能かつ微分可能なシミュレータ Rewarpedを開発し、実験の効率化を図った. 感想  SHACから色々変えているので、エントロピー項による影響がどの程度なのか分かりにくい  HandFlipでAblation studyを行っているが、他の例が気になる  実験の評価は、(おそらく) 確率的方策に対して行ったものだが、決定論的方策に対してやった方が良い  特に、SHACとの比較を考えたとき、SAPOはエントロピー項を加えている分、分散が大きくなりやすいため  シミュレータという観点から、あまりしっかり読めなかったので、理解を深めたい 13