【DL輪読会】Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

1K Views

February 26, 26

#自己回帰モデル #階層強化学習 #時間的抽象化 #教師なし学習 #内部強化学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 70.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 54K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 49.4K

各ページのテキスト

Emergent Temporal Abstractions in Autoregressive Models Enable Hierarchical Reinforcement Learning Tomoshi Iiyama, Matsuo-Iwasawa Lab

書誌情報 Emergent Temporal Abstractions in Autoregressive Models Enable Hierarchical Reinforcement Learning ● Google, Paradigms of Intelligence Team ● 論⽂： https://arxiv.org/abs/2512.20605 ● コード：公式実装は未公開概要 ● ⾃⼰回帰モデルの内部表現に⾃発的に現れる時間的抽象表現を教師なしで獲得 ● 抽象⾏動空間で「内部強化学習」を⾏う ● 通常のRLや既存の階層RLでは解けないスパース報酬タスクを達成 2

https://arxiv.org/abs/2512.20605

BACKGROUND 3

Background 従来のRL ● 強化学習 (RL) は、ロボット制御や LLM の事後学習に広く⽤いられている ● 通常の⾃⼰回帰モデルは1ステップ（1トークン）ずつ⽣成を⾏うため報酬がスパースな⻑期タスクでは、「探索」と「信⽤割当」の⾯で学習が難しい ● 探索報酬が得られるまでの必要ステップが膨⼤，ランダムな⾏動で辿り着く可能性が低い ● 信⽤割当どのステップが良かったのか評価しづらい，報酬信号の伝播が遅い報酬 t t+1 t+2 t+1000 時間 4

Background 階層RL ● 時間的に抽象化された⾏動や⽅策を扱う ● 再利⽤可能なサブルーチン（スキル、オプション）へ分解 ● 系列のホライズンが短縮される ○ 探索空間の削減 ○ 信⽤割当の簡素化報酬 t t+1000 時間 5

階層RLの課題 ● どうやって時間的に抽象化されたサブルーチンを発⾒するのか？ ● 様々なアプローチがある ● ○ 固定ステップで区切る ○ 既知のラベル情報を利⽤する ○ 学習により⾃動で獲得する学習する⽅法は degenerate solutions に収束してしまうことが多く、不安定 ※ Denegenerate solution （退化した解）意味のある時間的な構造が消失し、実質1層と変わらない極端な解 Background

Background 仮説 ● 仮説：⾃⼰回帰モデルは既に内部に時間的抽象表現を持っている ● 単純な Next-action prediction を⾏う⾃⼰回帰モデルを学習 → モデル内部に暗黙的に時間的に抽象化された表現が⽣まれているのではないか ● もし読み取ることができれば、ある低次系列がどの⾼次⾏動に対応しているかがわかる ● さらにその表現の値を操作し介⼊することができれば、任意の⾼次⾏動への切り替えを制御できる

Background 問題設定 ● 階層的な RL タスクを想定 ○ エージェントが指定された⾊のセルへ到達すると報酬が得られる離散グリッド環境 MuJoCo 環境の Ant ロボット Director の PinPad のグリッド版⾼次元の連続値制御

Background 提案⼿法 ● ⼤きく分けて3つのステージがある次トークン予測による事前学習様々なエキスパートのデータセットを用いて次ステップの観測と行動を予測する自己回帰モデルを学習 Metacontroller の学習自己回帰モデルをフリーズさせ内部の残差ストリームを操作しながら、抽象表現を自己教師あり学習 Internal RL による事後学習学習された抽象表現を行動としてみなし適切に高レベル行動を切り替える方策をオンラインで学習 9

10.

事前検証モデル内部の抽象表現の取り出しと操作 10

11.

⾃⼰回帰モデルの事前学習 ● ● Preliminary 様々なタスクを解くエキスパートのデータセットを⽤意 ○ 観測と⾏動の系列 ○ 報酬や⽬標、タスク情報などは含まない ○ 任意のサブゴール（⾚へ⾏くなど）を指定して収集したデータグリッド環境には Transformer、MuJoCo 環境には SSM を使⽤し Next-action (next-observation) Prediction を学習 11

12.

Preliminary 線形プロービング ● ある時刻 t において、⾃⼰回帰モデルの l 番⽬のブロックの残差ストリームの値からサブゴール ● ○ ● に注⽬をデコードする線形分類器を学習するここでは grount-truth のサブゴールラベルを利⽤次ステップの⾏動予測のみで訓練されたにもかかわらず、内部にサブゴールの表現が⽣まれていることがわかった ● Transformer の深い層にいくほどサブゴールの分類精度が⾼くなる ● 時間が経つにつれ（今とっている⾏動の証拠が集まると）確信度が⾼くなる 12

13.

Preliminary コントローラによる書き込み ● 残差ストリームの値を更新するパラメータ考える ● 以下のような線形変換による更新 ● それぞれのサブゴールラベルに対応するコントローラ ● 元の⾃⼰回帰モデルは凍結した上で、同様のデータセットでコントローラを学習を⽤意 ○ Ground-truth のサブゴールラベルをもとに⼿動でコントローラを切り替える ○ サブゴールごとに元の⾏動予測を崩さない適切なパラメータが学習される 13

14.

Preliminary コントローラによる書き込み ● 未知のサブゴールの組み合わせによるタスクでも⾼い成功率で解くことができた ○ 残差のパラメータを変更することで、⾏動を変化させることができることがわかった（コントローラ‧サブゴールの切り替えは⼿動） ● 横：モデルの層数縦：コントローラの挿⼊位置⾊：成功度 ● 読み取り時は層が深くなるほど精度が⾼かったが、書き込みは中間層が最も良い → 抽象表現から低レベル⾏動への変換は複数層にわたって⾏う必要があるため 14

15.

教師なしでの抽象表現の獲得 15

16.

メタコントローラ Metacontroller 次トークン予測による事前学習様々なエキスパートのデータセットを用いて次ステップの観測と行動を予測する自己回帰モデルを学習 Metacontroller の学習自己回帰モデルをフリーズさせ内部の残差ストリームを操作しながら、抽象表現を自己教師あり学習 Internal RL による事後学習学習された抽象表現を行動としてみなし適切に高レベル行動を切り替える方策をオンラインで学習 16

17.

Metacontroller メタコントローラ ● サブゴールの正解ラベルなしに抽象表現を獲得して操作したい ● コントローラ ● 流れを⽣成するメタコントローラを導⼊する ○ ⾃⼰回帰モデルをオフラインデータで事前学習 ○ ⾃⼰回帰モデルをフリーズ ○ メタコントローラを（正解サブゴールに条件付けずに）学習 17

18.

Metacontroller メタコントローラ ● VAE と RNN を組み合わせたアーキテクチャ ● 潜在コード： ● エンコーダ：RNN で残差の系列 ○ ● ⾼レベル⾏動の抽象表現に対応するをエンコードし、潜在コードの事後分布を出⼒過去から未来までの全情報を⽤いて推論するデコーダ：潜在コードからパラメータ⾏列を⽣成 → ⾃⼰回帰モデルに注⼊する 18

19.

Metacontroller メタコントローラ ● スイッチングユニット ○ エンコーダが出⼒した候補と、前時刻のコードを切り替える役割 ○ 更新度合いを決めるゲートを出⼒する： ○ これにより（理想的には）スキルの離散的な切り替えを実現 19

20.

メタコントローラの学習 ● （引き続きの）⾏動予測 ○ ● ● Metacontroller 潜在コードに基づくパラメータを凍結した⾃⼰回帰モデルへ注⼊ → ⾏動予測精度を最⼤化 KL正則化 ○ エンコーダが出⼒した潜在コードを標準正規分布に近づける ○ → ○ VAE のボトルネック，圧縮に対応（エンコーダによる未来の情報をどれくらい取り込むか）標準正規分布からのサンプリングが意味のある抽象表現に対応するようになる ELBO の導出：VTA 2019 と関連 20

21.

メタコントローラによる抽象表現の獲得 ● Metacontroller サブゴールの正解ラベルを与えていないのにもかかわらず実際のサブゴールの切り替わり時刻とスイッチングの時刻が⼀致した ● 明⽰的な正則化を⼊れていないにもかかわらず、⼆値的でスパースなスイッチングの挙動が⽣まれた 21

22.

⾃⼰回帰モデルのフリーズの重要性 ● 事前学習が抽象表現を⽣み出しており、同時訓練するとその構造が⽣まれない ● レート歪み関数による⽐較（ KL の重みを変更） ○ ○ 左：⾃⼰回帰モデルをフリーズさせ、メタコントローラのみを学習した場合 ■ 予測精度と KL（圧縮率）のトレードオフの曲線にギャップが出現 ■ ＝圧縮率を少し変えた時に復元率が劇的に改善するポイントがある ■ この時にサブゴールのスイッチングが⼀致していた右： Metacontroller ⾃⼰回帰モデルとメタコントローラを同時に学習した場合（既存階層RL⼿法に対応） ■ degenerate solution に収束 ■ スイッチング回数（⾊）が1 ＝毎ステップでスイッチングが⽣じている 22

23.

抽象表現を⽤いた内部強化学習 23

24.

内部強化学習 Internal RL 次トークン予測による事前学習様々なエキスパートのデータセットを用いて次ステップの観測と行動を予測する自己回帰モデルを学習 Metacontroller の学習自己回帰モデルをフリーズさせ内部の残差ストリームを操作しながら、抽象表現を自己教師あり学習 Internal RL による事後学習学習された抽象表現を行動としてみなし適切に高レベル行動を切り替える方策をオンラインで学習 24

25.

Internal RL 内部強化学習 ● “Internal RLˮ を提案 ● メタコントローラで得られた抽象表現 ● 現在時刻までの残差の履歴をもとに、適切な抽象表現を選択する⽅策 ● ⾃⼰回帰モデルとメタコントローラのパラメータはフリーズさせる ● 上で強化学習を⾏うを学習する ○ = それらを環境の⼀部としてみなす ○ （コードからパラメータ⾏列へのデコード → ⾃⼰回帰モデルへの注⼊ → ⾏動の出⼒まで）は固定 ○ 適切な表現の選択のみ学習する離散的なスイッチングにするため、ゲートはステップ関数で⼆値化する 25

26.

内部強化学習 ● Internal RL 全体像 26

27.

内部強化学習 ● ある正しい⾊の順番で回った時にのみスパースな報酬が得られる環境を⽤意 ● 通常の RL はそもそも全く解けない ○ 事前学習済みの⾃⼰回帰モデルに GRPO（事後学習でよく⽤いられる RL）を適⽤ ○ 1ステップごとのランダムなサンプリングにより成功する確率は 100万分の1のオーダーである Internal RL 27

28.

Internal RL 内部強化学習 ● 内部RLは⾼い成功率を⽰した ○ 時間的抽象化により、4つの抽象⾏動のどれが成功に貢献したかを判断するシンプルな信⽤割当 ● 同時学習バージョン：解けず ● 毎ステップ切替バージョン（強制で）：解けず 28

29.

既存研究との関連 29

30.

Related Work 階層RL ● ● これまでに学習ベースの手法が多く提案されている ○ CompILE ICML 2019 ○ LOVE NeurIPS 2022 ○ LOVE のベース：VTA NeurIPS 2019 正解ラベルを用いずにデータから抽象表現を見出せる一方で、しばしば階層構造が不安定で収束しづらくdegenerate solutions に陥ってしまうことがある ● これらの手法（CompILE）は今回タスクを解くことができなかった ● 既存研究のように学習によって階層表現を作り出すのではなく本論文は通常の予測モデルの中から階層表現を「抽出する」アプローチを取っている 30

31.

階層の同時学習 ● Related Work 複数の階層を同時にすることが困難なことが指摘されている Friston+ 2023 ○ 下位と上位が互いに依存関係にある ○ 異なる時間スケールで進⾏する変数間の相互作⽤は循環的因果関係を⽣み出し、分析を複雑にする ● これまでの学習ベースの⼿法が不安定なのもこれに起因している ● 本論⽂では、下位（⾃⼰回帰モデル）を固定することで対応している 31

32.

ゲートを使用したスイッチング ● GateL0RD NeurIPS 2021, THICK ICLR 2024 ○ ● Related Work ゲートの値に対して、明示的にL0正則化を適用し、スパースな抽象表現の変化を促す本論⽂のスイッチングユニットに対応している 32

33.

Schmidhuber ● Related Work Schmidhuber が述べている理論 [Schmidhuber 2015] ○ ⾃⼰教師あり学習を通じた履歴圧縮器の訓練と、その内部表現を使⽤した RL を通じて新しい経験を⽣成することの間を反復する Wake-sleep の訓練ループが複雑な能⼒の獲得につながる ● この概念に対応する具体的なアーキテクチャと、これらの主張を裏付ける実験結果の両⽅を提供している 33

34.

JEPA ● メタコントローラは JEPA の configurator モジュールに類似している ○ ● Related Work 両⽅とも⽬標やタスクのために世界モデルと⽅策を変調する役割を担っている JEPA は⾃⼰回帰予測モデルなしに抽象的な観測と⾏動の表現を学習するが、本論⽂のアプローチは次⾏動予測が重要な要素となっている 34

35.

まとめ 35

36.

まとめ ● Conclusion ⾃⼰回帰モデルの内部表現に⾃発的に現れる時間的抽象表現を教師なしで発⾒し (metacontroller) その抽象⾏動空間で強化学習を⾏うことで Internal RL 通常のRLや既存の階層RLでは解けないスパース報酬タスクを解くことができた ● 新たに階層を学習するのではなく既にあるものを取り出すというアプローチが⾯⽩い ● ⾃⼰回帰モデルの凍結が重要という主張も興味深い ● タスク設定が限定的（⾊のパッドを周回するだけ）なため、より複雑な環境での検証を期待 36