[DL輪読会]ODT: Online Decision Transformer

1.3K Views

March 22, 22

dee

スライド概要

2022/03/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] ODT: Online Decision Transformer Presenter: Manato Yaguchi (Hokkaido university, B2) http://deeplearning.jp/ 1

2.

目次 • 書誌情報 • 背景 • 提案手法 • 実験 • まとめ

3.

書誌情報 • タイトル: Online Decision Transformer • 著者:Qinqing Zheng (Facebook AI Research • 論文: Amy Zhang Aditya Grover UC Berkeley UC Los Angeles) https://deepai.org/publication/online-decision-transformer (02/22) • 概要:offline 環境で学習したRLのモデルであるdecision transformerを、online finetuningできるように工夫した研究 -ナイーブにonline finetuning を行うと探索性の観点から上手くいかないので 確率的方策、policy entropy, hindsight experience replay などの工夫を組み込む

4.

背景:Offline によるRL • Q学習ベースの手法:CQL, IQL, actor-critic など • 系列ベースの手法:trajectory transformer, decision transformer など - 強化学習を教師あり学習の枠組みで捉えてあげる いずれも、与えられたデータ分布外の行動予測をどのようにするかに課題 2005.01643.pdf (arxiv.org)

5.

背景:Offline RLとonline finetuning • Offline RLは事前に与えられたデータのみから方策などを学習 - 与えられたデータ分布の外の行動を予測するのが難しい • 一方で、ナイーブにonline finetuning を行うと探索性の観点から上手くいかない ⇒過去の経験の利用と、新たなデータの探索のトレードオフを考える必要性 (policy entropy, hindsight experience replay など)

6.

背景:Decision Transformer • TransformerをOffline RLに組み込んだ研究 - 長期の予測に優れている • Transformerには、GPT architecture を利用 • 過去K timestepの(a,R,s)を入力として、行動 を決定論的に出力 - ただしRは時刻Tまでに得られる報酬の和 𝑠𝑡 :状態, 𝑎𝑡 :行動, 𝑅𝑡 = σ𝑇𝑡 ′=𝑡 𝑟𝑡 ′ Xinさんの輪読会資料 (21/07)

7.

提案手法:主なポイント 主に、Decision Transformerとの違いについて 1. 確率的な方策の導入 2. 方策エントロピーによる探索性の制御 3. Hindsight return relabeling

8.

提案手法:確率的な方策の導入 • 探索性の向上のために、確率的な方策を導入する - 連続行動空間の場合、過去K timestepの軌跡とRTGから、平均μと対角共分 散行列Σを出力し、そこから多変量ガウス分布に従ってサンプリングする

9.

提案手法:Max-Entropy Sequence modeling • Online finetuning においては、explorationとexploitationのバランスが課題 ⇒探索性を定量化するために、方策エントロピーを導入 探索性の向上のため、方策エントロピーがβ以上という制約で目的関数 J(θ)を最適化 ※βはハイパーパラメータ

10.

提案手法:ラグランジュ双対問題 • Lagrangian を定め、 を考え る. (L(θ, λ)の最小値を最大化するλを求めたい) • 上の問題は、次の2つの式を、θとλについて交互に最適化することで解 くことができる ※ ただし、HとJは以下で定義される.

11.

提案手法:Hindsight return relabeling • ハイパーパラメータ 𝑔𝑜𝑛𝑙𝑖𝑛𝑒 を 設定し、 リプレイバッファには、エージェン トの軌跡sと𝑔𝑜𝑛𝑙𝑖𝑛𝑒 の組が保管されて いる. • だが、実際に得られる報酬(RTG)は、 𝑔𝑜𝑛𝑙𝑖𝑛𝑒 とは異なる. ⇒再ラベリングすることによって修正 する

12.

提案手法:Training shift pipeline • Online 学習時には、replay buffer に順次新たな軌道を入れ ていく • τからサンプルされた軌道に ついて、実際に得られた報酬 (RTG)を再計算する • 再計算後のデータ(a,s,g)を使っ て、方策πのパラメータθを 修正

13.

実験:result • Q学習ベースのオフライン強化学習のSOTAであるIQLとの比較 - online finetuning には、advantage weighted actor critic(AWAC)を組み込んでいる • Offline時ではIQLのが優れているが、online finetuningを行うと、同程度の結果が得られる

14.

実験:決定論的方策と確率的方策 • 決定論的方策の方は、decision transformerと同じアーキテクチャを使用 • 確率的方策は、探索と安定したonline finetuningにとって重要な要素

15.

実験:RTG Conditioning • RTG(ハイパーパラメータ)をどのように定めるべきかについてのablation study • 左はofflineの学習に対する結果、右はonline finetuningに対する結果 - 得られる最大報酬の1-2倍程度に定めるのが妥当

16.

実験:Hindsight return relabeling • Hindsight return relabeling を行った場合と行っていない場合の比較 - 報酬のラベルを振りなおさないと、一定以上の性能がでないと主張

17.

まとめ • 確率的な方策、方策エントロピー、hindsight return relabeling の3点を導入することで、 offlineで事前学習を行った後にonline finetuningを行った研究 - offlineの強化学習のSOTAをonline finetuningしたものと同程度の結果が得られた • Onlineデータとofflineデータが混在する実用的なシナリオに応用できる 感想 - Offlineで事前学習後に、online finetuningするというのは自然な発想 - Transformer部分に工夫を入れることで、特定のタスクに依存しない汎化性能の高い大規模な 事前学習モデルが作れる可能性は?(自然言語処理でいうbertのような) - 探索空間が大きいことが課題になるのか?