【DL輪読会】PRE-TRAINING GOAL-BASED MODELS FOR SAMPLE-EFFICIENT REINFORCEMENT LEARNING

491 Views

March 22, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] PRE-TRAINING GOAL-BASED MODELS FOR SAMPLE-EFFICIENT REINFORCEMENT LEARNING Matsunaga Ritsuki NIT, NC EC1 http://deeplearning.jp/

2.

書誌情報 タイトル:PRE-TRAINING GOAL-BASED MODELS FOR SAMPLE-EFFICIENT REINFORCEMENT LEARNING 著者: 採択:ICLR2024(Oral) モチベーション:研究インターンでゴール条件付き強化学習についての研究を行った ため、現在どのような研究がされているのか興味が湧いたから 2

3.

概要 ・階層型RLにゴール条件付きRLを採用し、そのゴール条件を離散化してするこ とでサンプル効率を大幅に改善した。 ・離散化の工程を挟むことで行動の解釈性が高くなった。 3

4.

関連研究 強化学習における事前学習 ・タスク固有データセットでの事前学習 →模倣学習ドメインでよく用いられ、良いRLの初期状態を得るために利用される。 ・大規模なタスク非依存データセットでの事前学習 →今回の手法のような汎用的なスキルセットを得るためによく利用される。 有効な初期状態を得るというよりは状態表現や世界モデル獲得のためによく用いられる。 4

5.

関連研究 ゴール条件付き強化学習 ・複数のゴール条件が存在する場合によく用いられ、異なる 目標に対して一般化できるエージェントの訓練に用いられる →FetchPushタスクなど ・近年ではこの「ゴール」を自然言語にして指示に従うエージ ェントを学習する研究もある。 5

6.

関連研究 階層型強化学習 →事前学習で下層ポリシーに低レベルなスキル(単純な行動)を獲得させ、上層ポリシーは下層 ポリシーを利用して下流タスクを解けるような方策を学習する 長期的な視点でサブゴールを設定 サブゴールを達成するための行動を推論 サブゴール 推論された行動でエージェントを動かす 行動 6

7.

研究背景 • RLを利用した方策決定は、現在様々な取り組みが行われているが、未だ実世界でのタスクや オープンワールドゲームでのタスクは未だに難しい。 →複雑かつ長期的なタスクなので、報酬を得るのが難しい。 • 最新の取り組みでは、事前学習を低次元のRL環境で行うなどの手法が提案されている。しか し、高次元な環境へのスケールアップはうまく行っていない。 • Steve-1というゴール条件付けRLを利用した手法でのMinecraft環境でのtext-to-actioモ デルの成功を受けて、hindsight relabeling等を利用した階層型強化学習を提案 7

8.

手法 • 高レベルポリシーと低レベルポリシーの二つを利用した階層型強化学習 • まず低レベルポリシーを大量のタスク非依存データセットで学習する • 事前学習したGoal-Conditioned PolicyとGoal Prior Modelをフリーズして 高レベルポリシーを学習することで、学習の安定性とサンプリング効率を高めること ができる 8

9.

手法 Goal Prior Modelの学習 ・現在の状態から望ましいゴールの目標状態を得るためのモデルを学習する →High-level Policyの補助的役割 9

10.

手法 Goal-Conditioned Policyの学習 ・目標状態空間が与えられたとき、その目標を達成するための動作を学習する →データセットから状態𝑠𝑡 , 𝑎𝑡 , 𝑠𝑡+1 …の遷移をサンプルし、hindsight-relabelingを応用した behavior cloningで学習 10

11.

手法 目標状態空間の離散化 ・Goal-Conditioned Policyに与えられる目標状態空間を、k-meansを利用してクラスタリン グし、それぞれのクラスタの中心を目標状態とすることで離散化する。 →このようにして得られた目標状態空間は、下位ポリシーのゴールとして渡される。 →離散化するので解釈性が良くなる 11

12.

手法 High-level Policyの学習 ・前述のモデルをフリーズして強化学習を行う 12

13.

実験 実験環境・データセット Kitchen:7自由度マニピュレータでのシミュレーション環境 Minecraft:Mine Dojo 学習用データ ・Kitchen:150Kの遷移サンプル ・Minecraft:39Mフレームの行動ラベリングデータ Minecraftタスク設定 13

14.

実験 実験結果 ・ほとんどの実験でPTGMが上回る結果に 14

15.

実験 実験結果 ・クラスタリングのクラスタ数によって性能が変化する →少なすぎるとタスクに必要な低レベルな技術が習得しきれず、多すぎると学習しきれない? 15

16.

実験 16

17.

実験 17

18.

まとめ ・階層型RLとゴール条件付きRLを組み合わせることで、サンプル効率が向上 ・階層型強化学習の繋ぎで離散化の工程を入れているため解釈性が良い ・目標状態表現については改善の余地あり ・データのバイアスに強く依存してしまう ・スケーリングはどうなのか気になる 18

19.

参考文献 ・https://sites.google.com/view/ptgm-iclr/ ・https://sites.google.com/view/steve-1 19