[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning

163 Views

July 07, 17

#deep learning #Reinforcement Learning #Hybrid Reward Architecture #Domain Knowledge #Value Function #Efficiency and Stability

スライド概要

2017/6/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning 情報理工学系研究科コンピュータ科学専攻横倉広夢 2017/06/30

書誌情報 • Hybrid Reward Architecture for Reinforcement Learning 著者: Maluuba(MSに買収された)の研究チーム • 13 Jun 2017 • http://www.maluuba.com/blog/2017/6/14/hra • 2

http://www.maluuba.com/blog/2017/6/14/hra

概要 • Goal: 利得を最大化する方策を学習したい • スケールさせたい DNNによって低次元化した最適価値関数の近似 (e.g. DQN) • 価値関数が複雑で低次元で表現できない場合は？？(Ms. Pac-Man) performance objective, training objective • 元の報酬関数を、より滑らかな最適価値関数を持つような報酬関数で置換することで効率的で安定した学習を実現する 3

HRA • 報酬を分割して、それぞれに対して価値関数を学習させる parallel aggregator • 各構成要素は特徴量全体の部分集合に依存しているはずなので、価値関数はより滑らかで低次元での近似が容易→学習効率、安定性 4

最適行動価値 • 必ずしも、環境から得られる報酬に関して最適とは限らない • 悪い挙動だったらQ値の集約部分を変えれば解決するかも 5

Loss • DQN • HRA （Sarsaでもよい） 6

ドメイン知識の利用 • • • 無関係な特徴量を除去する • 得られる報酬に影響を与えない特徴は単なるノイズなので除去ターミナルステートを明確化する • この価値を近似する必要がなくなるので、ネットワークの重みが効率的に利用できる擬似報酬(pseudo-reward)を利用する • 擬似報酬(Sutton et al., 2011): 特徴量に基づいた任意の有用な信号 • ポリシーの他に擬似報酬まで入力として考えた、価値関数をgeneral value function (GVF)と呼ぶ 7

実験1 • Fruit Collection task • エージェントはできるだけ速く10x10のグリッド上にある果物を回収する • 果物が配置され得る場所は10箇所 • エピソード毎に、10箇所中5箇所に果物が配置される • エージェントの開始位置はランダム • 300ステップまたは5個全て回収したらエピソードは終了 8

実験1 • • DQN • 各果物に対して報酬+1を与える HRA • 10個の報酬に分割 • 各報酬はそれぞれ10箇所中の1箇所に対応する 9

10.

実験1 • • • 無関係な特徴量を除去する • エージェントの位置+対応する果物の特徴量(あるかどうか)のみターミナルステートを明確化する • 状態の表現をかなり簡略化できた擬似報酬を利用する • エージェントが10箇所の各場所に行くように価値関数を学習させる（各場所の果物に関した価値を学習するのではなく）（？） 10

11.

実験1 • DQNに比べて、ドメイン知識の効果が顕著 11

12.

実験2 • Ms. Pac-Man ( from Atari 2600 ) • ペレットを食べることでポイント • ゴーストに会うと死ぬ • 特殊なペレットを食べるとゴーストが一時的に青くなる • 青くなったゴーストは食べることができる • レベル毎に２回ボーナスフルーツを食べることができる • 7種類あり、ポイントが異なる • 全てのペレットを食べると次のレベル • マップは4種類 12

13.

実験2 • Arch. • 各ペレット、各ゴースト、各青いゴースト、各フルーツに対して1 head • 実験1と同様に、特定の場所に向かうようにQ値を学習する (ように擬似報酬を設定する？) • マップ毎に異なるGVF • Start: 0 GVFs, 0 heads • マップ上で新しく到達できる場所を見つけたらGVFを追加 • 新しい場所でペレットを見つけたら、headを追加 13

14.

実験2 • Exploration • 探索用のheadを2タイプ • diversification • ランダムなQ値を区間[0, 20]の一様分布から発生させる • 最初の50ステップ程度必要だった • count-based • あまり探索されていなかったstate-actionペアにボーナスを発生させる 14

15.

実験2 • • fixed start : 最初しばらく何もしない時間を設ける random start : 人間の軌跡に基づいた初期位置から始める 15

16.

実験2 16

17.

実験2 17

18.

まとめ報酬を、状態の一部に依存するように分割することで、複雑な価値関数を低次元で近似 • 学習の効率性、安定性 • 問題サイズの削減 • • ドメインの知識が有効に活用できる 18