【DL輪読会】論文解説：Offline Reinforcement Learning as One Big Sequence Modeling Problem

312 Views

June 15, 22

#deep learning #Deep Learning #Reinforcement Learning #Trajectory Transformer #Sequence Modeling #Offline Reinforcement Learning

スライド概要

2022/06/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] 論文解説：Offline Reinforcement Learning as One Big Sequence Modeling Problem Ryoichi Takase http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報採録：NeurIPS 2021 (Spotlight) 関連するDL Papers： 2022/06/03: A Generalist Agent 2022/03/18: ODT: Online Decision Transformer 2021/07/09: Decision Transformer: Reinforcement Learning via Sequence Modeling 概要：ダイナミクスモデルの学習にTransformerを使用 TransformerとBeam Searchと組み合わせ、Imitation Learning・Goal-conditioned RL・Offline RLで既存手法と同等以上の性能を発揮 ※注釈無しの図は本論文から抜粋 2

背景 Offline RL: 環境との相互作用なしにデータセットから方策を学習モデルベース強化学習：ダイナミクスモデルを学習し、学習したモデルを用いて方策を改善ダイナミクスモデルの学習の課題：短いステップ数では予測誤差は小さいが長い予測では誤差が積み重なり大きくなる 3

提案手法軌跡に関する長い時系列データ：軌跡のデータは自然言語処理の系列データと類似 Transformerの利点をいかして予測精度の向上を検討ダイナミクスモデルの学習にTransformerを応用したTrajectory Transformerを提案 4

系列データの扱い方 T個の「状態、行動、報酬」のセットで構成される時系列データ性能向上のためにデータを離散化 N:状態の次元数、M:行動の次元数 → 系列データの長さはT(N+M+1) 2通りの離散化 ①Uniform: データの最大値と最小値の差を語彙数で割り、データの値を等間隔に分割 ②Quantile: データの分布を等分割し、データ量を均等に分割 5

モデル構造と損失関数モデル構造：大規模言語モデルGPTの縮小版ブロック数とSelf-Attentionヘッド数はともに４つ学習方法：時刻t-1までのデータから時刻tの状態、行動、報酬を予測するように学習交差エントロピー誤差を使用 𝜏<𝑡 : 時刻0からt-1までの軌跡データ 𝑠𝑡<𝑖 : 時刻tでの0からi-1次元までの状態 𝑎𝑡<𝑖 : 時刻tでの0からi-1次元までの行動 6

予測精度の比較 Transformer (提案手法)：長い予測ステップでも高性能を維持 Markovian Transformer：マルコフ性を持たせたTransformer (直前のデータのみを用いて予測) Transformerと同程度の性能を発揮 Feedforward (既存手法) ：ステップ数が長くなると誤差が拡大 7

部分観測での精度比較部分観測（観測値の50％をマスク）の場合の性能比較 Transformer (提案手法): 部分観測の場合でも一定の性能を維持 Markovian Transformer: 長い予測ステップでは提案手法と比べて性能が低下マルコフ性の条件付けだけでは不十分であることを示唆 → 提案するTransformerの妥当性を強調 8

Attentionの解析２つのAttentionパターン ①マルコフ性の条件付け → 現在の状態と行動に予測が大きく依存 ②数ステップ前への依存線状の状態：過去の同じ次元の状態に依存点状の行動：過去の自身の行動に依存 9

10.

Beam Searchとの組み合わせ Trajectory TransformerとBeam Searchを組み合わせ、以下の問題を解く Imitation Learning: Algorithm 1をそのまま使用と定式化 Goal-conditioned RL: Offline RL: Reward-to-go: でデータを拡張 10

11.

Imitation Learning・Goal-Conditioned RLの結果 Imitation LearningやGoal-reachingで有用であることを確認 → Beam Searchと組み合わせてTrajectory Transformerを様々なタスクに応用可能スタートゴール 11

12.

Offline RLの結果 D4RLベンチマークを用いて性能検証 UniformとQuantileの2種類の離散化手法： HalfCheetah Med-Expert以外は同等の性能 → 既存手法と同等以上の性能を発揮 BC MBOP BRAC CQL DT : behavior-cloning : model-based offline planning : behavior-regularized actor-critic : conservative Q-learning : decision transformer 12

13.

学習済み価値関数の利用報酬が疎な環境では方策の改善が困難 → Transformerが予測する報酬や価値を学習済み価値関数で置換 AntMazeで性能検証 → 報酬が疎な環境で高性能を発揮 BC CQL IQL DT : behavior-cloning : conservative Q-learning : implicit Q-learning : decision transformer 13

14.

まとめダイナミクスモデルの学習：長期の予測による誤差を小さくするためにTrajectory Transformerを提案 → 予測精度を高水準で維持既存手法との性能比較： Beam searchと組み合わせてImitation Learning, Goal-reaching, Offline RLの問題へ応用 → 既存手法と同等以上の性能を発揮 14

【DL輪読会】論文解説：Offline Reinforcement Learning as One Big Sequence Modeling Problem

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】拡散モデルの数理

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

各ページのテキスト