【ゼロから作るDeep Learning④】9.3~9.6

157 Views

December 18, 25

#強化学習 #深層学習 #REINFORCE #ベースライン #Actor-Critic

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.6K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.5K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.5K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.6K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 13K

各ページのテキスト

ゼロから学ぶDeep Learning4 9.3-9.6 ベースラインとActor Critic 工学部B3 野村隆晃 0

アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 1

アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 2

ベースラインの基本アイディア損失関数の勾配の期待値を変えることなく分散を減らす手法収益そのものではく、相対的な収益を算出 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 ෍ 𝐺𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 収益𝐺𝑡 ->行動によるAdvantageへ変更 (減算する関数は状態の関数であればよい) 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 ෍ 𝐺𝑡 − 𝑏 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 3

アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 4

Actor-Criticとは強化学習の2つの手法である価値関数ベースと方策ベースを合わせた手法 • 価値関数ベース: 状態と行動を引数にとる価値関数をNNなどで近似し最大化 • 方策ベース : 状態から確率的に行動を選択ベースラインつきREINFORCEにNNで予測する価値関数を使用、つまり方策ベースでありながら損失関数の算出に価値関数を使用 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 ෍ 𝐺𝑡 − 𝑉𝑤 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 軌道が終わる前に𝐺𝑡 を算出したい->TD, モンテカルロ,(GAE) 5

収益の近似収益の厳密値は、エピソードの終了まで未確定であるため、 1step先まで用いるTD法をもちいる。 TD法による状態価値関数の更新: 𝑉𝜋′ 𝑆𝑡 = 𝑉𝜋 𝑆𝑡 + 𝛼{𝑅𝑡 + 𝛾𝑉𝜋 𝑆𝑡+1 − 𝑉𝜋 𝑆𝑡 } ∇𝜃 𝐽 𝜃 𝑇 = 𝐸𝜏∼𝜋𝜃 ෍ 𝑅𝑡 + 𝛾𝑉𝑤 𝑆𝑡+1 − 𝑉𝑤 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 この式中の学習されているNN:方策𝜋と状態価値関数𝑉𝑤 と (ActorとCritic) 6

NNの構造 Actorである行動決定用のPolicyNetとCritic(価値関数近似)のValueNet どちらも2層NNだがsoftmaxを適用するかどうかが異なる 7

Actor用のコード Update: ActorとCriticをupdateで適用&学習 8