【ゼロから作るDeep Learning④】6.4~6.6

>100 Views

November 27, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年後期輪読会 ゼロから作る Deep Learning ④ TD法(6.4~6.6) 京都大学 工学部 情報学科 数理工学コース 稲葉 陽孔 1

2.

アジェンダ ■ Q学習 ■ 分布モデルとサンプルモデル ■ コード 2

3.

Q学習 方策オフ型SARASの欠点 挙動方策bは「探索」ターゲット方策πは「活用」といったように役割が分担されているが、 重点サンプリングになっている b →2つの方策の確率分布が異なるほど重点サンプリングでの 重みP(π/b)が大きく変動し、Q関数の更新が不安定になる 重点サンプリングを使わないSARAS(Q学習)の登場 バックアップ線図(SARSA・方策オフ) ※重点サンプリング ある確率分布を元にした期待値を、別の確率分布からサンプリングしたデータを用いて推定する手法 方策オフ型SARASの場合は、求めたい期待値はQ・サンプリングに用いる確率分布がb 3

4.

Q学習 SARSAとQ学習の違い(概要) SARSA(方策オフ) Q学習 何のサンプリング版か ベルマン方程式 ベルマン最適方程式 重点サンプリングを用いるか Yes No 4

5.

Q学習 SARSAとQ学習の違い(SARAS) ベルマン方程式 b バックアップ線図(ベルマン方程式) →SARSAはベルマン方程式の サンプリング版 バックアップ線図(SARSA・方策オフ) 5

6.

Q学習 SARSAとQ学習の違い(Q学習) ベルマン最適方程式 バックアップ線図(ベルマン最適方程式) →Q学習はベルマン最適方程式の サンプリング版 バックアップ線図(Q学習) 6

7.

Q学習 SARSAとQ学習の違い(重点サンプリング) b バックアップ線図(SARSA・方策オフ) 求めたい期待値 バックアップ線図(Q学習) SARSA(方策オフ) Q学習 Q_π Q_π b なし 期待値の更新式 期待値の更新に用いられる サンプリング用の確率分布 → SARSAは重点サンプ リングを行うが、 Q学習では行わない 7

8.

Q学習 実装(Q学習) 手順 1.get_actionによって次のactionを取得 この時、bとε-greedy法を掛け合わせて取得する 2.updateによって次のstateから最適なactionを取得し、Q 関数を更新。その後、それをもとにπ・bも更新 3.1と2を繰り返す Q学習におけるQ関数の更新式 ※Q学習の最中ではπは使われないが、学習後はπをもとに方策を決定 するので役割がないわけではない 8

9.

分布モデルとサンプルモデル (実装の工夫 ) 分布モデルとサンプルモデルの違い 分布モデル:確率分布を明示的に保持し、それをもとに行動を選択 サンプルモデル:確率分布を持たず、サンプリングによって行動を選択 9

10.

分布モデルとサンプルモデル (実装の工夫 ) 実装(Q学習・サンプルモデル) 手順 1.get_actionによって次のactionを取得 この時、Q関数とε-greedy法を掛け合わせて取得する 2.updateによって次のstateから最適なactionを取得し、 Q関数を更新 3.1と2を繰り返す 確率分布を参考にせず、ε-greedyにサンプリング 確率分布を持たない 10