【DL輪読会】PRE-TRAINING GOAL-BASED MODELS FOR SAMPLE-EFFICIENT REINFORCEMENT LEARNING

843 Views

March 22, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.41MB)

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] PRE-TRAINING GOAL-BASED MODELS FOR SAMPLE-EFFICIENT REINFORCEMENT LEARNING Matsunaga Ritsuki NIT, NC EC1 http://deeplearning.jp/

http://deeplearning.jp/

書誌情報タイトル：PRE-TRAINING GOAL-BASED MODELS FOR SAMPLE-EFFICIENT REINFORCEMENT LEARNING 著者：採択：ICLR2024(Oral) モチベーション：研究インターンでゴール条件付き強化学習についての研究を行ったため、現在どのような研究がされているのか興味が湧いたから 2

概要・階層型RLにゴール条件付きRLを採用し、そのゴール条件を離散化してすることでサンプル効率を大幅に改善した。・離散化の工程を挟むことで行動の解釈性が高くなった。 3

関連研究強化学習における事前学習・タスク固有データセットでの事前学習 →模倣学習ドメインでよく用いられ、良いRLの初期状態を得るために利用される。・大規模なタスク非依存データセットでの事前学習 →今回の手法のような汎用的なスキルセットを得るためによく利用される。有効な初期状態を得るというよりは状態表現や世界モデル獲得のためによく用いられる。 4

関連研究ゴール条件付き強化学習・複数のゴール条件が存在する場合によく用いられ、異なる目標に対して一般化できるエージェントの訓練に用いられる →FetchPushタスクなど・近年ではこの「ゴール」を自然言語にして指示に従うエージェントを学習する研究もある。 5

関連研究階層型強化学習 →事前学習で下層ポリシーに低レベルなスキル(単純な行動)を獲得させ、上層ポリシーは下層ポリシーを利用して下流タスクを解けるような方策を学習する長期的な視点でサブゴールを設定サブゴールを達成するための行動を推論サブゴール推論された行動でエージェントを動かす行動 6

研究背景 • RLを利用した方策決定は、現在様々な取り組みが行われているが、未だ実世界でのタスクやオープンワールドゲームでのタスクは未だに難しい。 →複雑かつ長期的なタスクなので、報酬を得るのが難しい。 • 最新の取り組みでは、事前学習を低次元のRL環境で行うなどの手法が提案されている。しかし、高次元な環境へのスケールアップはうまく行っていない。 • Steve-1というゴール条件付けRLを利用した手法でのMinecraft環境でのtext-to-actioモデルの成功を受けて、hindsight relabeling等を利用した階層型強化学習を提案 7

手法 • 高レベルポリシーと低レベルポリシーの二つを利用した階層型強化学習 • まず低レベルポリシーを大量のタスク非依存データセットで学習する • 事前学習したGoal-Conditioned PolicyとGoal Prior Modelをフリーズして高レベルポリシーを学習することで、学習の安定性とサンプリング効率を高めることができる 8

手法 Goal Prior Modelの学習・現在の状態から望ましいゴールの目標状態を得るためのモデルを学習する →High-level Policyの補助的役割 9

10.

手法 Goal-Conditioned Policyの学習・目標状態空間が与えられたとき、その目標を達成するための動作を学習する →データセットから状態𝑠𝑡 , 𝑎𝑡 , 𝑠𝑡+1 …の遷移をサンプルし、hindsight-relabelingを応用した behavior cloningで学習 10

11.

手法目標状態空間の離散化・Goal-Conditioned Policyに与えられる目標状態空間を、k-meansを利用してクラスタリングし、それぞれのクラスタの中心を目標状態とすることで離散化する。 →このようにして得られた目標状態空間は、下位ポリシーのゴールとして渡される。 →離散化するので解釈性が良くなる 11

12.

手法 High-level Policyの学習・前述のモデルをフリーズして強化学習を行う 12

13.

実験実験環境・データセット Kitchen：７自由度マニピュレータでのシミュレーション環境 Minecraft：Mine Dojo 学習用データ・Kitchen：150Kの遷移サンプル・Minecraft：３９Mフレームの行動ラベリングデータ Minecraftタスク設定 13

14.

実験実験結果・ほとんどの実験でPTGMが上回る結果に 14

15.

実験実験結果・クラスタリングのクラスタ数によって性能が変化する →少なすぎるとタスクに必要な低レベルな技術が習得しきれず、多すぎると学習しきれない？ 15

16.

実験 16

17.

実験 17