>100 Views
December 18, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
ゼロから学ぶDeep Learning4 9.3-9.6 ベースラインとActor Critic 工学部B3 野村隆晃 0
アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 1
アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 2
ベースラインの基本アイディア 損失関数の勾配の期待値を変えることなく分散を減らす手法 収益そのものではく、相対的な収益を算出 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 𝐺𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 収益𝐺𝑡 ->行動によるAdvantageへ変更 (減算する関数は状態の関数であればよい) 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 𝐺𝑡 − 𝑏 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 3
アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 4
Actor-Criticとは 強化学習の2つの手法である価値関数ベースと方策ベースを合わせた手法 • 価値関数ベース: 状態と行動を引数にとる価値関数をNNなどで近似し最大化 • 方策ベース : 状態から確率的に行動を選択 ベースラインつきREINFORCEにNNで予測する価値関数を使用、つまり方策 ベースでありながら損失関数の算出に価値関数を使用 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 𝐺𝑡 − 𝑉𝑤 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 軌道が終わる前に𝐺𝑡 を算出したい->TD, モンテカルロ,(GAE) 5
収益の近似 収益の厳密値は、エピソードの終了まで未確定であるため、 1step先まで用いるTD法をもちいる。 TD法による状態価値関数の更新: 𝑉𝜋′ 𝑆𝑡 = 𝑉𝜋 𝑆𝑡 + 𝛼{𝑅𝑡 + 𝛾𝑉𝜋 𝑆𝑡+1 − 𝑉𝜋 𝑆𝑡 } ∇𝜃 𝐽 𝜃 𝑇 = 𝐸𝜏∼𝜋𝜃 𝑅𝑡 + 𝛾𝑉𝑤 𝑆𝑡+1 − 𝑉𝑤 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 この式中の学習されているNN:方策𝜋と状態価値関数𝑉𝑤 と (ActorとCritic) 6
NNの構造 Actorである行動決定用のPolicyNetとCritic(価値関数近似)のValueNet どちらも2層NNだがsoftmaxを適用するかどうかが異なる 7
Actor用のコード Update: ActorとCriticをupdateで適用&学習 8