【DL輪読会】Gradient Estimation with Discrete Stein Operators

>100 Views

October 30, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Gradient Estimation with Discrete Stein Operators [DL Papers] Presenter: Manato Yaguchi, Matsuo-Iwasawa lab, M2 http://deeplearning.jp/

2.

書誌情報 紹介論文  タイトル: STABILIZING REINFORCEMENT LEARNING IN DIFFERENTIABLE MULTIPHYSICS SIMULATION 出典: プロジェクトページ (ICLR2025 Spotlight) 著者: Eliot Xing, Vernon Luk, Jean Oh 概要  エントロピーを加味した1次勾配を用いたRL手法「SAPO」の定式化を行い、学習の安定化に寄 与することを実験的に示した. (Today’s Main Focus)  並列化可能かつ微分可能なMultiphysics シミュレータ (Rewarped)を開発した.  剛体だけでなく、滑らかな物体も扱える. ※画像は出典記載のないものは、本論文から引用 2

3.

問題設定 / Notation 前提  MDPの枠組みで考える: (𝑆, 𝐴, 𝑃, 𝑅, 𝜌0 , 𝛾)  S: 状態, a: 行動, 𝑃: 𝑆 × 𝐴 → 𝑆 を確率遷移関数, 𝑅: 𝑆 × 𝐴 → 𝑅 を報酬関数, 𝜌0 𝑠 を初期状 態分布, 𝛾: 割引率 とする. 解きたいもの  𝜋: 𝑆 → 𝐴 を方策, 𝑟𝑡 = 𝑅(𝑠𝑡 , 𝑎𝑡 ) と表記する. 𝑡  𝔼𝜋 [σ∞ 𝛾 𝑟𝑡 ] を最大化する方策 𝜋 を得たい. 𝑡=0  実験する際には、無限回のシミュレーションは不可能なので、有限のステップに対する報酬の最大化を 考える 𝑡  𝑅0:𝑇 = σ𝑇−1 𝑡=0 𝛾 𝑟𝑡 , 方策𝜋でのTステップのシミュレーションによる軌跡を 𝜏, この時の(s,a)の分布を 𝜌𝜋 とすると、  𝐽 𝜋 = 𝔼𝜏~𝜌𝜋 [𝑅0:𝑇 ] を最大化するように、方策 𝜋𝜃 のパラメータ 𝜃 を最適化する. 3

4.
[beta]
Background: 方策勾配法 / 0次勾配
 考えること:
を最大化するために、方策\pi_{\theta}を最適化する.
 そのために、 ∇𝜃 𝐽 𝜋 を正確に計算したい.


はQ関数.

を方策勾配法という.
 実験上は、a, sの積分計算はできない => 有限回のシミュレートで計算

 0次勾配 (ZOBG) と、N sampleによるMonte-Carlo推定(REINFORCE)により求める.
ポイント:勾配を求める際に状態 s に関する微分を考えない (状態に関して0次の微分を使う)

4

5.

Background: 1次勾配  考えること: を最大化するために、方策 𝜋𝜃 を最適化する.  そのために、∇𝜃 𝐽 𝜋 を正確に計算したい.  方策 𝜋𝜃 ではなく、報酬 R にパラメータ微分を押し付ける. (0次と1次の違い)  報酬 Rは状態 sの関数 => 状態の1次の微分を考えることを意味する.  環境の遷移のダイナミクスP, 報酬 R が、状態に関して、常に微分可能である必要がある.  微分可能でない場合は、その分だけバイアスが入ることになる.  言い換えると、モデルベース強化学習の場合、シミュレータが微分可能である必要がある  扱うシミュレータが、常に微分可能とは限らない (ex. 接触の扱いなど, 具体的にはclipや、if文の条件分岐 など)  提案手法 SAPOは 1次勾配ベースの手法なので、微分可能シミュレータを用いることを前提とする 5

6.

Background: 代表的な1次勾配手法  Analytic Policy Gradient (APG)  本来最適化したいTステップ分のシミュレーションによる報酬の代わりに、より短いホライゾン H でtruncate し たものを1次勾配により最大化する.  なぜか:安定性のため。 (ホライゾンが長くなると、1次勾配がよりカオスになる. バイアスを犠牲にして、安定 性を高める)  Short-Horizon Actor-Critic (SHAC)  短いホライゾンHでtruncateするのは、APGと同じ。Hステップ以降は、価値関数Vにより近似する.  Policy と 価値関数を、Actor-critic の枠組みで交互に最適化する.  価値関数 𝑉෨ は、TD(𝜆)により推定する. 6

7.

提案手法:SAPOの定式化  一言で言うと、SAPOはSHACに、エントロピー項を加えたもの.  H ステップでtruncateされたReturnは、以下で表される.  𝐻𝜋 はシャノンエントロピー.  𝛼は自動で調整する.  Q関数と、価値関数もエントロピーを加味したものに置き換えて計算する.  Hステップ以降を価値関数で近似する項を加えて、以下の式を、1次勾配により最適化する. 7

8.

提案手法:SAPOの詳細 アルゴリズムの実装に関して、5点を言及. (基本的にはSHACをベースに変更)  エントロピー項の調整 ෩ 以上のエントロピーという制約のもと、双対問題として以下を最適化する. 𝐻  エントロピーの正規化: 安定性のため(?)、エントロピーが0~1 になるように正規化  方策分布の表現の仕方について  方策を表現するガウス分布について、状態依存の標準偏差を持つように変更(エントロピー項を入れたから、状態 依存にしても極端に小さくなりづらい(?)  Critic (価値関数)の設計に関して  target networkを削除 (収束が早い代わりに、安定性が犠牲になる)  モデルの構造と最適化に関して  活性化関数をELU -> SiLUに変更, grad normのclipを、1.0->0.5に変更 8

9.

並列可能な微分シミュレータ  NVIDIA Warp を基に、並列可能な微分シミュレータ Rewarpedを提案  剛体だけでなく、柔軟物体に対しても並列可能な形で実装した 9

10.

実験  微分可能シミュレータ Rewarped上での実験  AntRun, HandReorientは、剛体のみに関するタスク. 他は柔軟物体などを含むタスク. 10

11.

実験  HandFlipタスクを用いたAblation study  このタスクの場合、エントロピーの有無で大きく変わる 11

12.

実験:Loss ランドスケープの可視化  エントロピーを導入した動機は、Loss のパラメータに関する微分が滑らかに なること  方策のパラメータ空間において、ランダ ムな2方向への摂動に対するLossラ ンドスケープを可視化 12

13.

まとめ, 感想 まとめ  エントロピーを加味した1次勾配RLアルゴリズム SAPO を提案.  並列可能かつ微分可能なシミュレータ Rewarpedを開発し、実験の効率化を図った. 感想  SHACから色々変えているので、エントロピー項による影響がどの程度なのか分かりにくい  HandFlipでAblation studyを行っているが、他の例が気になる  実験の評価は、(おそらく) 確率的方策に対して行ったものだが、決定論的方策に対してやった 方が良い  特に、SHACとの比較を考えたとき、SAPOはエントロピー項を加えている分、分散が大きくなりやすいため  シミュレータという観点から、あまりしっかり読めなかったので、理解を深めたい 13