【DL輪読会】Looped World Models

214 Views

July 02, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 51.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Looped World Models Yusei Koen, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題名 Looped World Models 著者 Hongyuan Adam Lu, Z.L., Victor Wei （FaceMind Research Asia）リンク https://arxiv.org/pdf/2606.18208 2

https://arxiv.org/pdf/2606.18208

背景：World Models • World Modelは、現在の状態 st から行動 at をとった時に次の状態 st+1 がどうなるかを予測するモデル • 既存のWorld Modelの抱えるトレードオフ – 長期予測を行うと誤差が蓄積していく – 大きいモデルを使用すると誤差は小さくなるが推論コスト増加 • 既存のWorld Modelは、全ての遷移に同じ計算コストを課す – 「あまり状態が変わらない遷移」と「状態が複雑に変化する遷移」に同じリソースを割くのは非効率的 3

背景：Looped Transformer • 言語モデルの研究においてLooped Transformerが提案されてきた – Latent stateを複数回同じtransformer blockに通す – 近年はLLMにLoop構造を取り入れることでパラメータ効率が向上することが確認されている • これらのLooped Transformerの研究は、言語モデルの研究においてのみ評価されてきた Transformer Transformer Loop Transformer • World ModelにLooped Transformerを使えないか？ – Loop構造を取り入れることで、遷移の難易度によって計算量を可変にできる – 固定の深さのモデルが抱えるトレードオフを解決できるのでは 4

提案手法：Looped World Model • 環境遷移予測のモデルに初めてLooped Transformerを適用 • Loop構造を適用することで、少ないパラメータサイズで大規模モデルと同等の性能を実現 • LoopのEarly Exit機能により、遷移の難易度によって動的にLoop回数を変更することが可能この論文は具体的な実装、実験の説明、それぞれの要素のアブレーションがかなり不足しており、よく分からないところが多い。 5

提案手法：Looped World Model • 基本的な forward の流れ 1. 外界の時刻 k の観測 ok と行動 ak をencodeする 2. 前の時刻 k-1 の隠れ状態と現在時刻の入力をLooped Transformerに入力する • Looped Transformerは T 回ループして処理を行う 3. 出力された隠れ状態から予測ヘッドを用いて、次の時刻の観測、報酬、タスクの終端を予測 6

提案手法：Looped World Model • 具体的な実装 1. Prelude • Transformer Blockの入力にLayerNormをかけることで、入力信号が過度に大きくなることを防ぐ 2. Recurrent Block • • Transformer LayerをT回Loopする初期の隠れ状態をとして、t = 0, 1, …, T-1回の更新式を previous hidden state • • • input Transformer の出力と定義する。 AとBは dxd 次元の学習可能な行列で隠れ状態と入力をどれだけ次のループに注入するかを学習するこの定式化自体は先行研究（Parcae: Scaling Laws For Stable Looped Language Models）に倣っている（e と h はd次元ベクトル？？Transformerの入力なので本当はsequence？） 7

提案手法：Looped World Model • 具体的な実装 3. Spectral Stability Constraint • • 隠れ状態の係数行列を、各要素が0から1の対角行列となるように制約隠れ状態が発散しないようにする previous hidden state input Transformer の出力 4. Coda • • 最終隠れ状態をヘッドに入れる前に特定の次元に射映 Codaの出力が次の環境時刻の最初のhidden stateとして用いられる 5. Cross-Timestep State Propagation • 環境時刻 k でのループの終端時刻 t=Tでの隠れ状態が、環境時刻 k+1 のループの初期時刻 t=0 の隠れ状態として用いられる 8

提案手法：Looped World Model • 学習方法 – 学習時にはSequenceごとにループ回数をランダムに変える • 学習可能パラメータを持つポアソン分布からサンプルする – World Model Loss • 各環境時刻での予測誤差で学習する • Loopのbackpropはtruncated backpropを用いる（Loop回数の半分のステップまで） 9

10.

提案手法：Looped World Model • 学習方法 – Entropy-Regularised Adaptive Depth • 各ループ時刻で隠れ状態からearly exitの確率を出力する線形層のGateを学習する • Gateの出力が、0か1に張り付かないようにエントロピー正則化を加える • これを含めて最終的な学習損失は、となる。 Gateの学習信号は自分の認識だとこのEntropy正則化のみなので、どのようにEarly Exitを学習しているのかはよく分からなかった 10

11.

提案手法：Looped World Model • Deferred Decodingの学習 – Deferred Decoding: 複数ステップ潜在空間でrolloutして終端状態のみdecodeする – 最初の観測O0のみ入力して、各ステップでは行動のみ入力して、潜在空間で予測を行う – 終端時刻でのみdecodeしてその誤差で学習 – 中間の潜在表現が変な方向に発散しないように正則化を加える 1. h0 hK 潜在空間で予測 Latent Consistency Loss – – 2. OK 各時刻の潜在表現が入力からencodeした潜在表現と一致するように学習普通のLatent World Model的なLoss Spectral contraction budget – 潜在表現の移動距離に制約をつける – 最終的な損失 O0 h0 hK 移動距離に上限をつける Spectral contraction budget 11

12.

提案手法：Looped World Model • Deferred Decodingの学習 – 学習中用いるKはカリキュラム学習的に増やしていく • 最初から長期の予測を行うのは難しいため OK – このDeferred Decodingと先ほどの1stepごとのWorld Model 学習がどのように組み合わされているのかは論文内で述べられていない。 • 最初はWorld Model学習をして、その後にDeferred Decodingの学習をしている？ h0 hK 潜在空間で予測 O0 12

13.

実験設定：ベンチマーク • 使用しているベンチマーク 1. ScienceWorld 2. ALFWorld • 本来はLLM Agentを評価するベンチマーク – タスクがあって、それを実行できるかどうかを評価する • 本研究では、ある状態からある行動を取った時にどういう状態になるかを予測させるタスクとして使用 – メインは5stepの行動を入力して、その後の状態を当てられるかを評価 – アブレーションとして行動のstep数を変化させた時の予測性能を評価（後述） ScienceWorldの場合のタスクのイメージ（論文内に記述が無いので推測） Input: Initial observation: You are in the kitchen. You see a stove, a metal pot, and a cup of water. The stove is off. Actions: 1. take metal pot 2. pour water into metal pot 3. put metal pot on stove 4. turn on stove 5. wait Target: The metal pot is on the stove. The stove is on. The water in the metal pot is boiling. このモデルがどのように文章を学習・生成しているのかは述べられていない。隠れ状態に条件づけてTransformer headで自己回帰的に生成している？ 13

14.

実験設定：評価指標 1. EM: Exact Match – 生成された文章と正解文章の完全一致 2. Token-F1 – 生成された文章と正解文章のトークン単位でのF1score 3. BLEU-4 – 生成された文章と正解文章のn-gram単位での一致度 4. Entity – （おそらく）正解文章の環境固有の単語が生成された文章にどの程度含まれているか 14

15.

実験結果①：LLMとの比較 • 約 1B パラメータの LoopWM を claude-opus-4-6max / gemini-3-flash / qwen-3.5-flash と比較 • ScienceWorld – 全指標で提案手法の性能が高くなっている • ALFWorld – 他のモデルとほぼ同等の性能 100倍小さいパラメータ数で大規模モデルと同等の性能を実現。 → LoopWMがどのようなデータで学習されているかなどの記載が本文中に無いため、フェアに比較できているのか微妙各評価指標のモデルごとの比較（あまりにも論文のTableが見にくかったためTableの数値を元に作成） 15

16.

実験結果②：Deferred Decoding • ScienceWorldにおいて、stepごとに予測性能を評価 – 上のTable：LoopWMの性能 – 下のTable：Geminiの性能で正規化したLoopWMの性能 • どの評価指標においても、stepが増えても性能は劣化していない • どのstepにおいてもGeminiよりも高い性能 • Stepが進むほどGeminiとの差が広がる傾向 → 誤差蓄積が抑えられている 16

17.

まとめ・所感まとめ • 初めてWorld ModelにLooped Transformer を適用した研究所感 • 画像モダリティでの実験がない – World ModelにLooped Transformerを適用したと言いつつ評価は言語タスク • Loop構造によるパラメータ効率の向上 → 100倍少ないパラメータ数でLLMと同等性能 • 比較対象モデルがLLMのみ • Early ExitによるAdaptiveなLoopによって、計算効率を向上 • アブレーションの不足 – LoopなしのTransformerとの比較が無いので良くなっているのか分からない – Early ExitやLoopの詳細な実験が行われていない 17