[DL輪読会]ODT: Online Decision Transformer

4.4K Views

March 22, 22

#dee #Deep Learning #Online Decision Transformer #Reinforcement learning #Q-learning #Online and Offline finetuning

スライド概要

2022/03/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] ODT: Online Decision Transformer Presenter: Manato Yaguchi (Hokkaido university, B2) http://deeplearning.jp/ 1

http://deeplearning.jp/

目次 • 書誌情報 • 背景 • 提案手法 • 実験 • まとめ

書誌情報 • タイトル： Online Decision Transformer • 著者：Qinqing Zheng (Facebook AI Research • 論文： Amy Zhang Aditya Grover UC Berkeley UC Los Angeles) https://deepai.org/publication/online-decision-transformer (02/22) • 概要：offline 環境で学習したRLのモデルであるdecision transformerを、online finetuningできるように工夫した研究 -ナイーブにonline finetuning を行うと探索性の観点から上手くいかないので確率的方策、policy entropy, hindsight experience replay などの工夫を組み込む

https://deepai.org/publication/online-decision-transformer

背景：Offline によるRL • Q学習ベースの手法：CQL, IQL, actor-critic など • 系列ベースの手法：trajectory transformer, decision transformer など - 強化学習を教師あり学習の枠組みで捉えてあげるいずれも、与えられたデータ分布外の行動予測をどのようにするかに課題 2005.01643.pdf (arxiv.org)

https://arxiv.org/pdf/2005.01643.pdf

背景：Offline RLとonline finetuning • Offline RLは事前に与えられたデータのみから方策などを学習 - 与えられたデータ分布の外の行動を予測するのが難しい • 一方で、ナイーブにonline finetuning を行うと探索性の観点から上手くいかない ⇒過去の経験の利用と、新たなデータの探索のトレードオフを考える必要性 (policy entropy, hindsight experience replay など)

背景：Decision Transformer • TransformerをOffline RLに組み込んだ研究 - 長期の予測に優れている • Transformerには、GPT architecture を利用 • 過去K timestepの(a,R,s)を入力として、行動を決定論的に出力 - ただしRは時刻Tまでに得られる報酬の和 𝑠𝑡 :状態, 𝑎𝑡 :行動, 𝑅𝑡 = σ𝑇𝑡 ′=𝑡 𝑟𝑡 ′ Xinさんの輪読会資料 (21/07)

https://deeplearning.jp/decision-transformer-reinforcement-learning-via-sequence-modeling/

提案手法：主なポイント主に、Decision Transformerとの違いについて 1. 確率的な方策の導入 2. 方策エントロピーによる探索性の制御 3. Hindsight return relabeling

提案手法：確率的な方策の導入 • 探索性の向上のために、確率的な方策を導入する - 連続行動空間の場合、過去K timestepの軌跡とRTGから、平均μと対角共分散行列Σを出力し、そこから多変量ガウス分布に従ってサンプリングする

提案手法：Max-Entropy Sequence modeling • Online finetuning においては、explorationとexploitationのバランスが課題 ⇒探索性を定量化するために、方策エントロピーを導入探索性の向上のため、方策エントロピーがβ以上という制約で目的関数 J(θ)を最適化 ※βはハイパーパラメータ

10.

提案手法：ラグランジュ双対問題 • Lagrangian を定め、を考える. （L(θ, λ)の最小値を最大化するλを求めたい） • 上の問題は、次の2つの式を、θとλについて交互に最適化することで解くことができる ※ ただし、HとJは以下で定義される.

11.

提案手法：Hindsight return relabeling • ハイパーパラメータ 𝑔𝑜𝑛𝑙𝑖𝑛𝑒 を設定し、リプレイバッファには、エージェントの軌跡sと𝑔𝑜𝑛𝑙𝑖𝑛𝑒 の組が保管されている. • だが、実際に得られる報酬(RTG)は、 𝑔𝑜𝑛𝑙𝑖𝑛𝑒 とは異なる. ⇒再ラベリングすることによって修正する

12.

提案手法：Training shift pipeline • Online 学習時には、replay buffer に順次新たな軌道を入れていく • τからサンプルされた軌道について、実際に得られた報酬 (RTG)を再計算する • 再計算後のデータ(a,s,g)を使って、方策πのパラメータθを修正

13.

実験：result • Q学習ベースのオフライン強化学習のSOTAであるIQLとの比較 - online finetuning には、advantage weighted actor critic(AWAC)を組み込んでいる • Offline時ではIQLのが優れているが、online finetuningを行うと、同程度の結果が得られる

14.

実験：決定論的方策と確率的方策 • 決定論的方策の方は、decision transformerと同じアーキテクチャを使用 • 確率的方策は、探索と安定したonline finetuningにとって重要な要素

15.

実験：RTG Conditioning • RTG（ハイパーパラメータ）をどのように定めるべきかについてのablation study • 左はofflineの学習に対する結果、右はonline finetuningに対する結果 - 得られる最大報酬の1-2倍程度に定めるのが妥当

16.

実験：Hindsight return relabeling • Hindsight return relabeling を行った場合と行っていない場合の比較 - 報酬のラベルを振りなおさないと、一定以上の性能がでないと主張

17.

まとめ • 確率的な方策、方策エントロピー、hindsight return relabeling の3点を導入することで、 offlineで事前学習を行った後にonline finetuningを行った研究 - offlineの強化学習のSOTAをonline finetuningしたものと同程度の結果が得られた • Onlineデータとofflineデータが混在する実用的なシナリオに応用できる感想 - Offlineで事前学習後に、online finetuningするというのは自然な発想 - Transformer部分に工夫を入れることで、特定のタスクに依存しない汎化性能の高い大規模な事前学習モデルが作れる可能性は？(自然言語処理でいうbertのような) - 探索空間が大きいことが課題になるのか？