[DL輪読会]Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning

>100 Views

April 30, 21

#deep learning #Deep Learning #Reinforcement Learning #Task Difficulty #Policy Information Capacity #Policy-Optimal Information Capacity

スライド概要

2021/04/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 45.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.6K

各ページのテキスト

DEEP LEARNING JP Policy Information Capacity: [DL Papers] Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning Hiroki Furuta http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル: Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning • 著者・所属: Hiroki Furuta1, Tatsuya Matsushima1, Tadashi Kozuno2, Yutaka Matsuo1, Sergey Levine3, Ofir Nachum3, Shixiang Shane Gu3 Ø 1The University of Tokyo, 2University of Alberta, 3Google Brain • URL: https://arxiv.org/abs/2103.12726 • 概要: 強化学習のベンチマーク環境は、異なる⾏動、観測、遷移、報酬を持ち、それぞれ異なるアルゴリズムで解かれるため、難易度の⽐較ができなかった。⽅策のパラメータと報酬/最適変数の間の相互情報量(PIC/POIC) を測定することで、環境の難易度を定量評価しうることを⽰した。 2

https://arxiv.org/abs/2103.12726

強化学習におけるタスクの難易度 • 近年の強化学習研究の進展はシミュレータ環境の発達によって可能となった e.g.) OpenAI Gym [Brockman et al. 2016; Todorov et al. 2012], DM Control [Tassa et al. 2018] • しかし、これらの環境の分析はそれぞれ異なる⾏動、観測、遷移、報酬を持っているため、しばしば無視されてきた 3

強化学習におけるタスクの難易度 • 先⾏研究は単純な有限MDPや線形関数近似など場合の強化学習のアルゴリズムに着⽬することが多かった Ø サンプル複雑度 [Kearns & Singh 2002; Strehl et al. 2009; Dann & Brunskill 2015] Ø リグレット下界 [Jaksch et al. 2010; Azar et al. 2017; Jin et al. 2018; 2020] • いくつかの研究はMDPの性質を扱っているが、NNなどの複雑な関数近似器には対応していない Ø diameter of MDP [Jaksch et al. 2010], Bellman rank [Jiang et al. 2017], environmental norm [Maillard et al. 2014], etc... • 複雑な環境やNNで動作する、実⽤的でアルゴリズムに依存しない定量的な指標を提案 Ø Random Weight Guessing [Oller et al. 2020] が先⾏研究として最も近いが、それはリターンの分散を可視化するなどして定性的な評価を⾏うプロトコルの提案にとどまっている 4

Intuition: Locomotion v.s. Manipulation ? < Locomotion [from Heess et al. 2017] Manipulation [from OpenAI 2021] • RLでManipulationを学習することはLocomotionを学ぶより難しい（ことが多い） • 仮説: ⾏動と”重要な”将来の状態の間がより強く”繋がって”いるとき、簡単なタスクであると⾔える 5

Intuition: Empowerment Empowerment [Klyubin et al. 2005; Tishby & Polani 2011; Mohamed & Rezende 2015] • エージェントの⾏動と将来の状態の間の相互情報量に基づく相互情報量の最大化 = 高い: エージェントの行動で多様な将来の状態に遷移しうる + 低い: エージェントの行動が与えられたときに将来の状態が予測可能 • 直感的には、より⾼いempowermentはエージェントがその⾏動で将来の状態をより⾃由に操作できることを表す 6

Policy Information Capacity (PIC) エピソードの累積報酬R と⽅策のパラメータΘ の間の相互情報量 • p(θ) : ⽅策のパラメータの事前分布（ただしネットワークアーキテクチャを含む） • 報酬がどの程度操作可能かをパラメータのサンプリングを通して測る • PIC はReward Empowermentとして解釈できる 7

Policy-Optimal Information Capacity (POIC) エピソードの最適性変数O と⽅策のパラメータΘ の間の相互情報量 • • 最適性変数O ∈ {0, 1} は軌道の最適性を表す [Levine 2018] • POIC はOptimality Empowermentとして解釈できる 8

https://arxiv.org/abs/1805.00909

PICの推定 • どのようにPICを推定するか→パラメータと累積報酬のモンテカルロサンプリング報酬の分布はB個のBinを用いて、離散化して近似する 9

10.

POICの推定 • どのようにPOICを推定するか→モンテカルロサンプリング • メリット: POICは離散のベルヌーイ分布を⽤いるのでPICの離散化による近似を避けられる • 定義から、報酬最⼤化に関するバイアスを⼊れられる • デメリット: ηの選び⽅が任意（MIが最⼤となるように選んだ） 10

11.

⼈⼯的なMDPでのPIC と POIC • エピソード⻑Tが⻑くなるほど難しくなるトイ環境を考える（1）MDPが難しくなるとPICとPOICは下がるか？ • 正規化スコアとPIC/POICをサンプリングして計算 • 正規化スコアが下がるとPIC/POICも下がる 11

12.

⼈⼯的なMDPでのPIC と POIC （2） p(θ) のパラメータがESなどで学習された場合、PICやPOICはどのように変わるか？ • 最初から⾼いPOICの事前分布(μ = 0; 茶⾊)は低いものよりも早く学習できる • POICが⾼いパラメータ領域では学習が加速され、低い領域では遅くなる 12

13.

どのようにOracleのタスクの難易度を知るか？ • 総当たりのタスク複雑度: Algorithm-based normalized scoreを計算 • 様々なRLアルゴリズムが含まれる⼤きな集合を⽤意し、それらを学習させて正規化された平均性能を求める • Classic Control: 23 algos (PPO, ES, DQN / PPO, ES, SAC, DDPG) • MuJoCo: 17 algos (SAC, MPO, AWR + Leaderboard Score in TD3 / AWR paper) • DM Control: 11 algos (SAC, MPO, AWR + Leaderboard Score in RAD paper) 13

14.

PIC and POIC in Popular Benchmark Environments • POIC/PIC/報酬の分散[Oller et al. 2020] とAlgorithm-based normalized scoreの間の相関係数を計算 • POICが最も相関（R=0.807; p=0.001）するがPICは相関しなかった 14

https://arxiv.org/abs/2004.07707

15.

PIC and POIC in Popular Benchmark Environments • PICはRandom-Sampling-based normalized scoreの間に弱い相関を⾒せる（R=0.401） • Random-Sampling-based normalized scoreは先⾏研究で考えられていたが、アルゴリズムの進展を無視したものである[Oller et al. 2020] 15

https://arxiv.org/abs/2004.07707

16.

PIC and POIC for Tuning Reward Shaping • PICとPOICは報酬関数のチューニングに⽤いることができる • 2 つのゴール到達タスク Ø 4 種類の報酬関数: Ø 4 つの異なるハイパラ: • e.g.) α ∈ {1, 0.5, 2, 5}, (β, γ) ∈ {(0.01, 0.01), … ,(0.1, 0.1)}, ε ∈ {0.05, 0.01, 0.1, 0.15} 16

17.

PIC and POIC for Tuning Transition Noise in MDP • 初期状態分布 p(s1) = Uniform(-u , u )と 1次元のダイナミクスノイ int int ズのハイパラを調整Uniform(-u , u ) dyn dyn • POICが正規化スコアと最も強く相関（R=0.860） • またPIC/POICを⽅策のネットワークの良さを評価するのにも使える 17

18.

Limitation and Future Work Limitation • 最も重⼤なのは事前分布p(θ) に⼤きく依存していること • 学習を進めていくと傾向が変わる環境（マニピュレーションなど）では PIC/POICとが全体のタスク難易度を表さない場合がある Future directions • 学習中にPIC/POICを推定し、 p(θ) を学習して適応させる • Atariなど⼤きなNNが必要な画像⼊⼒の環境にスケールさせる • ブートストラップとISを⽤いてサンプル効率が⾼い近似⼿法を春めいする 18

19.

まとめ 1. Empowermentに着想を得た⼿法: Policy Information Capacity (PIC) and Policy-Optimal Information Capacity (POIC)は単純で扱いやすい環境の難易度指標である 2. POICがalgorithm-based normalized scoreと最も強い正の相関を⽰した（報酬最⼤化のバイアスのため） 3. PICとPOICのどちらも実験のパラメータ（報酬関数、環境のノイズ、⽅策のネットワークなど）を調整するのに活⽤可能である PIC/POICによって情報理論的観点からRL環境の性質を分析することが可能となった 19