115 Views
February 26, 26
スライド概要
DL輪読会資料
Emergent Temporal Abstractions in Autoregressive Models Enable Hierarchical Reinforcement Learning Tomoshi Iiyama, Matsuo-Iwasawa Lab
書誌情報 Emergent Temporal Abstractions in Autoregressive Models Enable Hierarchical Reinforcement Learning ● Google, Paradigms of Intelligence Team ● 論⽂: https://arxiv.org/abs/2512.20605 ● コード: 公式実装は未公開 概要 ● ⾃⼰回帰モデルの内部表現に⾃発的に現れる時間的抽象表現を教師なしで獲得 ● 抽象⾏動空間で「内部強化学習」を⾏う ● 通常のRLや既存の階層RLでは解けないスパース報酬タスクを達成 2
BACKGROUND 3
Background 従来のRL ● 強化学習 (RL) は、ロボット制御や LLM の事後学習に広く⽤いられている ● 通常の⾃⼰回帰モデルは1ステップ(1トークン)ずつ⽣成を⾏うため 報酬がスパースな⻑期タスクでは、「探索」と「信⽤割当」の⾯で学習が難しい ● 探索 報酬が得られるまでの必要ステップが膨⼤,ランダムな⾏動で辿り着く可能性が低い ● 信⽤割当 どのステップが良かったのか評価しづらい,報酬信号の伝播が遅い 報酬 t t+1 t+2 t+1000 時間 4
Background 階層RL ● 時間的に抽象化された⾏動や⽅策を扱う ● 再利⽤可能なサブルーチン(スキル、オプション)へ分解 ● 系列のホライズンが短縮される ○ 探索空間の削減 ○ 信⽤割当の簡素化 報酬 t t+1000 時間 5
階層RLの課題 ● どうやって時間的に抽象化されたサブルーチンを発⾒するのか? ● 様々なアプローチがある ● ○ 固定ステップで区切る ○ 既知のラベル情報を利⽤する ○ 学習により⾃動で獲得する 学習する⽅法は degenerate solutions に収束してしまうことが多く、不安定 ※ Denegenerate solution (退化した解) 意味のある時間的な構造が消失し、実質1層と変わらない極端な解 Background
Background 仮説 ● 仮説:⾃⼰回帰モデルは既に内部に時間的抽象表現を持っている ● 単純な Next-action prediction を⾏う⾃⼰回帰モデルを学習 → モデル内部に暗黙的に時間的に抽象化された表現が⽣まれているのではないか ● もし読み取ることができれば、ある低次系列がどの⾼次⾏動に対応しているかがわかる ● さらにその表現の値を操作し介⼊することができれば、任意の⾼次⾏動への切り替えを制御できる
Background 問題設定 ● 階層的な RL タスクを想定 ○ エージェントが指定された⾊のセルへ到達すると報酬が得られる 離散グリッド環境 MuJoCo 環境の Ant ロボット Director の PinPad のグリッド版 ⾼次元の連続値制御
Background 提案⼿法 ● ⼤きく分けて3つのステージがある 次トークン予測による事前学習 様々なエキスパートのデータセットを用いて 次ステップの観測と行動を予測する自己回帰モデルを学習 Metacontroller の学習 自己回帰モデルをフリーズさせ 内部の残差ストリームを操作しながら、抽象表現を自己教師あり学習 Internal RL による事後学習 学習された抽象表現を行動としてみなし 適切に高レベル行動を切り替える方策をオンラインで学習 9
事前検証 モデル内部の抽象表現の取り出しと操作 10
⾃⼰回帰モデルの事前学習 ● ● Preliminary 様々なタスクを解くエキスパートのデータセットを⽤意 ○ 観測と⾏動の系列 ○ 報酬や⽬標、タスク情報などは含まない ○ 任意のサブゴール(⾚へ⾏くなど)を指定して収集したデータ グリッド環境には Transformer、MuJoCo 環境には SSM を使⽤し Next-action (next-observation) Prediction を学習 11
Preliminary 線形プロービング ● ある時刻 t において、⾃⼰回帰モデルの l 番⽬のブロックの残差ストリームの値 からサブゴール ● ○ ● に注⽬ をデコードする線形分類器を学習する ここでは grount-truth のサブゴールラベルを利⽤ 次ステップの⾏動予測のみで訓練されたにもかかわらず、内部にサブゴールの表現が⽣まれていることがわかった ● Transformer の深い層にいくほど サブゴールの分類精度が⾼くなる ● 時間が経つにつれ (今とっている⾏動の証拠が集まると) 確信度が⾼くなる 12
Preliminary コントローラによる書き込み ● 残差ストリームの値 を更新するパラメータ 考える ● 以下のような線形変換による更新 ● それぞれのサブゴールラベルに対応するコントローラ ● 元の⾃⼰回帰モデルは凍結した上で、同様のデータセットでコントローラを学習 を⽤意 ○ Ground-truth のサブゴールラベルをもとに⼿動でコントローラを切り替える ○ サブゴールごとに元の⾏動予測を崩さない適切なパラメータが学習される 13
Preliminary コントローラによる書き込み ● 未知のサブゴールの組み合わせによるタスクでも⾼い成功率で解くことができた ○ 残差のパラメータを変更することで、⾏動を変化させることができることがわかった (コントローラ‧サブゴールの切り替えは⼿動) ● 横:モデルの層数 縦:コントローラの挿⼊位置 ⾊:成功度 ● 読み取り時は層が深くなるほど精度が⾼ かったが、書き込みは中間層が最も良い → 抽象表現から低レベル⾏動への変換は 複数層にわたって⾏う必要があるため 14
教師なしでの抽象表現の獲得 15
メタコントローラ Metacontroller 次トークン予測による事前学習 様々なエキスパートのデータセットを用いて 次ステップの観測と行動を予測する自己回帰モデルを学習 Metacontroller の学習 自己回帰モデルをフリーズさせ 内部の残差ストリームを操作しながら、抽象表現を自己教師あり学習 Internal RL による事後学習 学習された抽象表現を行動としてみなし 適切に高レベル行動を切り替える方策をオンラインで学習 16
Metacontroller メタコントローラ ● サブゴールの正解ラベルなしに抽象表現を獲得して操作したい ● コントローラ ● 流れ を⽣成するメタコントローラを導⼊する ○ ⾃⼰回帰モデルをオフラインデータで事前学習 ○ ⾃⼰回帰モデルをフリーズ ○ メタコントローラを(正解サブゴールに条件付けずに)学習 17
Metacontroller メタコントローラ ● VAE と RNN を組み合わせたアーキテクチャ ● 潜在コード: ● エンコーダ:RNN で残差の系列 ○ ● ⾼レベル⾏動の抽象表現に対応する をエンコードし、潜在コードの事後分布を出⼒ 過去から未来までの全情報を⽤いて推論する デコーダ:潜在コードからパラメータ⾏列 を⽣成 → ⾃⼰回帰モデルに注⼊する 18
Metacontroller メタコントローラ ● スイッチングユニット ○ エンコーダが出⼒した候補 と、前時刻のコード を切り替える役割 ○ 更新度合いを決めるゲートを出⼒する: ○ これにより(理想的には)スキルの離散的な切り替えを実現 19
メタコントローラの学習 ● (引き続きの)⾏動予測 ○ ● ● Metacontroller 潜在コードに基づくパラメータを凍結した⾃⼰回帰モデルへ注⼊ → ⾏動予測精度を最⼤化 KL正則化 ○ エンコーダが出⼒した潜在コードを標準正規分布に近づける ○ → ○ VAE のボトルネック,圧縮に対応(エンコーダによる未来の情報をどれくらい取り込むか) 標準正規分布からのサンプリングが意味のある抽象表現に対応するようになる ELBO の導出:VTA 2019 と関連 20
メタコントローラによる抽象表現の獲得 ● Metacontroller サブゴールの正解ラベルを与えていないのにもかかわらず 実際のサブゴールの切り替わり時刻とスイッチングの時刻が⼀致した ● 明⽰的な正則化を⼊れていないにもかかわらず、⼆値的でスパースなスイッチングの挙動が⽣まれた 21
⾃⼰回帰モデルのフリーズの重要性 ● 事前学習が抽象表現を⽣み出しており、同時訓練するとその構造が⽣まれない ● レート歪み関数による⽐較( KL の重みを変更) ○ ○ 左: ⾃⼰回帰モデルをフリーズさせ、メタコントローラのみを学習した場合 ■ 予測精度と KL(圧縮率)のトレードオフの曲線にギャップが出現 ■ = 圧縮率を少し変えた時に復元率が劇的に改善するポイントがある ■ この時にサブゴールのスイッチングが⼀致していた 右: Metacontroller ⾃⼰回帰モデルとメタコントローラを同時に学習した場合(既存階層RL⼿法に対応) ■ degenerate solution に収束 ■ スイッチング回数(⾊)が1 = 毎ステップでスイッチングが⽣じている 22
抽象表現を⽤いた内部強化学習 23
内部強化学習 Internal RL 次トークン予測による事前学習 様々なエキスパートのデータセットを用いて 次ステップの観測と行動を予測する自己回帰モデルを学習 Metacontroller の学習 自己回帰モデルをフリーズさせ 内部の残差ストリームを操作しながら、抽象表現を自己教師あり学習 Internal RL による事後学習 学習された抽象表現を行動としてみなし 適切に高レベル行動を切り替える方策をオンラインで学習 24
Internal RL 内部強化学習 ● “Internal RLˮ を提案 ● メタコントローラで得られた抽象表現 ● 現在時刻までの残差の履歴をもとに、適切な抽象表現を選択する⽅策 ● ⾃⼰回帰モデルとメタコントローラのパラメータはフリーズさせる ● 上で強化学習を⾏う を学習する ○ = それらを環境の⼀部としてみなす ○ (コードからパラメータ⾏列へのデコード → ⾃⼰回帰モデルへの注⼊ → ⾏動の出⼒まで)は固定 ○ 適切な表現の選択のみ学習する 離散的なスイッチングにするため、ゲートはステップ関数で⼆値化する 25
内部強化学習 ● Internal RL 全体像 26
内部強化学習 ● ある正しい⾊の順番で回った時にのみスパースな報酬が得られる環境を⽤意 ● 通常の RL はそもそも全く解けない ○ 事前学習済みの⾃⼰回帰モデルに GRPO(事後学習でよく⽤いられる RL) を適⽤ ○ 1ステップごとのランダムなサンプリングにより成功する確率は 100万分の1のオーダーである Internal RL 27
Internal RL 内部強化学習 ● 内部RLは⾼い成功率を⽰した ○ 時間的抽象化により、4つの抽象⾏動のどれが成功に貢献したかを判断するシンプルな信⽤割当 ● 同時学習バージョン:解けず ● 毎ステップ切替バージョン(強制で ): 解けず 28
既存研究との関連 29
Related Work 階層RL ● ● これまでに学習ベースの手法が多く提案されている ○ CompILE ICML 2019 ○ LOVE NeurIPS 2022 ○ LOVE のベース:VTA NeurIPS 2019 正解ラベルを用いずにデータから抽象表現を見出せる一方で、 しばしば階層構造が不安定で収束しづらくdegenerate solutions に陥ってしまうことがある ● これらの手法(CompILE)は今回タスクを解くことができなかった ● 既存研究のように学習によって階層表現を作り出すのではなく 本論文は通常の予測モデルの中から階層表現を「抽出する」アプローチを取っている 30
階層の同時学習 ● Related Work 複数の階層を同時にすることが困難なことが指摘されている Friston+ 2023 ○ 下位と上位が互いに依存関係にある ○ 異なる時間スケールで進⾏する変数間の相互作⽤は循環的因果関係を⽣み出し、分析を複雑にする ● これまでの学習ベースの⼿法が不安定なのもこれに起因している ● 本論⽂では、下位(⾃⼰回帰モデル)を固定することで対応している 31
ゲートを使用したスイッチング ● GateL0RD NeurIPS 2021, THICK ICLR 2024 ○ ● Related Work ゲートの値に対して、明示的にL0正則化を適用し、スパースな抽象表現の変化を促す 本論⽂のスイッチングユニットに対応している 32
Schmidhuber ● Related Work Schmidhuber が述べている理論 [Schmidhuber 2015] ○ ⾃⼰教師あり学習を通じた履歴圧縮器の訓練と、 その内部表現を使⽤した RL を通じて新しい経験を⽣成することの間を反復する Wake-sleep の訓練ループが複雑な能⼒の獲得につながる ● この概念に対応する具体的なアーキテクチャと、これらの主張を裏付ける実験結果の両⽅を提供している 33
JEPA ● メタコントローラは JEPA の configurator モジュールに類似している ○ ● Related Work 両⽅とも⽬標やタスクのために世界モデルと⽅策を変調する役割を担っている JEPA は⾃⼰回帰予測モデルなしに抽象的な観測と⾏動の表現を学習するが、 本論⽂のアプローチは次⾏動予測が重要な要素となっている 34
まとめ 35
まとめ ● Conclusion ⾃⼰回帰モデルの内部表現に⾃発的に現れる時間的抽象表現を教師なしで発⾒し (metacontroller) その抽象⾏動空間で強化学習を⾏うことで Internal RL 通常のRLや既存の階層RLでは解けないスパース報酬タスクを解くことができた ● 新たに階層を学習するのではなく既にあるものを取り出すというアプローチが⾯⽩い ● ⾃⼰回帰モデルの凍結が重要という主張も興味深い ● タスク設定が限定的(⾊のパッドを周回するだけ)なため、より複雑な環境での検証を期待 36