>100 Views
November 27, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年後期輪読会 ゼロから作る Deep Learning ④ TD法(6.4~6.6) 京都大学 工学部 情報学科 数理工学コース 稲葉 陽孔 1
アジェンダ ■ Q学習 ■ 分布モデルとサンプルモデル ■ コード 2
Q学習 方策オフ型SARASの欠点 挙動方策bは「探索」ターゲット方策πは「活用」といったように役割が分担されているが、 重点サンプリングになっている b →2つの方策の確率分布が異なるほど重点サンプリングでの 重みP(π/b)が大きく変動し、Q関数の更新が不安定になる 重点サンプリングを使わないSARAS(Q学習)の登場 バックアップ線図(SARSA・方策オフ) ※重点サンプリング ある確率分布を元にした期待値を、別の確率分布からサンプリングしたデータを用いて推定する手法 方策オフ型SARASの場合は、求めたい期待値はQ・サンプリングに用いる確率分布がb 3
Q学習 SARSAとQ学習の違い(概要) SARSA(方策オフ) Q学習 何のサンプリング版か ベルマン方程式 ベルマン最適方程式 重点サンプリングを用いるか Yes No 4
Q学習 SARSAとQ学習の違い(SARAS) ベルマン方程式 b バックアップ線図(ベルマン方程式) →SARSAはベルマン方程式の サンプリング版 バックアップ線図(SARSA・方策オフ) 5
Q学習 SARSAとQ学習の違い(Q学習) ベルマン最適方程式 バックアップ線図(ベルマン最適方程式) →Q学習はベルマン最適方程式の サンプリング版 バックアップ線図(Q学習) 6
Q学習 SARSAとQ学習の違い(重点サンプリング) b バックアップ線図(SARSA・方策オフ) 求めたい期待値 バックアップ線図(Q学習) SARSA(方策オフ) Q学習 Q_π Q_π b なし 期待値の更新式 期待値の更新に用いられる サンプリング用の確率分布 → SARSAは重点サンプ リングを行うが、 Q学習では行わない 7
Q学習 実装(Q学習) 手順 1.get_actionによって次のactionを取得 この時、bとε-greedy法を掛け合わせて取得する 2.updateによって次のstateから最適なactionを取得し、Q 関数を更新。その後、それをもとにπ・bも更新 3.1と2を繰り返す Q学習におけるQ関数の更新式 ※Q学習の最中ではπは使われないが、学習後はπをもとに方策を決定 するので役割がないわけではない 8
分布モデルとサンプルモデル (実装の工夫 ) 分布モデルとサンプルモデルの違い 分布モデル:確率分布を明示的に保持し、それをもとに行動を選択 サンプルモデル:確率分布を持たず、サンプリングによって行動を選択 9
分布モデルとサンプルモデル (実装の工夫 ) 実装(Q学習・サンプルモデル) 手順 1.get_actionによって次のactionを取得 この時、Q関数とε-greedy法を掛け合わせて取得する 2.updateによって次のstateから最適なactionを取得し、 Q関数を更新 3.1と2を繰り返す 確率分布を参考にせず、ε-greedyにサンプリング 確率分布を持たない 10