【ゼロから作るDeep Learning④】6.4~6.6

>100 Views

November 27, 25

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年後期輪読会ゼロから作る Deep Learning ④ TD法(6.4~6.6) 京都大学工学部情報学科数理工学コース稲葉陽孔 1

アジェンダ ■ Q学習 ■ 分布モデルとサンプルモデル ■ コード 2

Q学習方策オフ型SARASの欠点挙動方策bは「探索」ターゲット方策πは「活用」といったように役割が分担されているが、重点サンプリングになっている b →２つの方策の確率分布が異なるほど重点サンプリングでの重みP(π/b)が大きく変動し、Q関数の更新が不安定になる重点サンプリングを使わないSARAS(Q学習)の登場バックアップ線図(SARSA・方策オフ) ※重点サンプリングある確率分布を元にした期待値を、別の確率分布からサンプリングしたデータを用いて推定する手法方策オフ型SARASの場合は、求めたい期待値はQ・サンプリングに用いる確率分布がb 3

Q学習 SARSAとQ学習の違い(概要) SARSA（方策オフ） Q学習何のサンプリング版かベルマン方程式ベルマン最適方程式重点サンプリングを用いるか Yes No 4

Q学習 SARSAとQ学習の違い(SARAS) ベルマン方程式 b バックアップ線図(ベルマン方程式) →SARSAはベルマン方程式のサンプリング版バックアップ線図(SARSA・方策オフ) 5

Q学習 SARSAとQ学習の違い(Q学習) ベルマン最適方程式バックアップ線図(ベルマン最適方程式) →Q学習はベルマン最適方程式のサンプリング版バックアップ線図(Q学習) 6

Q学習 SARSAとQ学習の違い(重点サンプリング) b バックアップ線図(SARSA・方策オフ) 求めたい期待値バックアップ線図(Q学習) SARSA（方策オフ） Q学習 Q_π Q_π b なし期待値の更新式期待値の更新に用いられるサンプリング用の確率分布 → SARSAは重点サンプリングを行うが、 Q学習では行わない 7

Q学習実装(Q学習) 手順 1.get_actionによって次のactionを取得この時、bとε-greedy法を掛け合わせて取得する 2.updateによって次のstateから最適なactionを取得し、Q 関数を更新。その後、それをもとにπ・bも更新 3.1と2を繰り返す Q学習におけるQ関数の更新式 ※Q学習の最中ではπは使われないが、学習後はπをもとに方策を決定するので役割がないわけではない 8

分布モデルとサンプルモデル (実装の工夫 ) 分布モデルとサンプルモデルの違い分布モデル：確率分布を明示的に保持し、それをもとに行動を選択サンプルモデル：確率分布を持たず、サンプリングによって行動を選択 9

10.

分布モデルとサンプルモデル (実装の工夫 ) 実装(Q学習・サンプルモデル) 手順 1.get_actionによって次のactionを取得この時、Q関数とε-greedy法を掛け合わせて取得する 2.updateによって次のstateから最適なactionを取得し、 Q関数を更新 3.1と2を繰り返す確率分布を参考にせず、ε-greedyにサンプリング確率分布を持たない 10

11.

コードこちらに記載しております 11

https://colab.research.google.com/github/oreilly-japan/deep-learning-from-scratch-4/blob/master/notebooks/06_temporal_difference.ipynb#scrollTo=985a90d2