【DL輪読会】Mixture of Contexts for Long Video Generation

352 Views

November 27, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Mixture of Contexts for Long Video Generation Kai Yamashita, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • Title: Mixture of Contexts for Long Video Generation • Authors: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein(ByteDance, Stanford University) • Under Submission to ICLR2026 • Project Page: https://primecai.github.io/moc/ TL;DR • 長尺動画生成のために必要な過去だけを見る Mixture of Contexts (MoC) を提案。 • 動画をチャンクに分けて、「どのチャンクを見るか」を選ぶことで、長期のキャラ・背景・動き の一貫性を維持。 • 計算量を大幅削減しつつ, 生成品質や一貫性は従来モデルと同等以上を達成 2

3.

Background 動画生成モデル Sora-2(OpenAI) Veo3(Google) • 動画生成は 生成モデルで非常に注目されているタスク • コンテンツ制作・自動運転シミュレーション・インタラクティブ世界モデルなど多くの応用が期待されている 3

4.

Video Generation Model Video Generation Model with Diffusion Transformer • 画像生成の拡散モデルのアーキテクチャのデファクトスタンダードであるDiT(Diffusion Transformer) をVideo生成に拡張 • 各frameを複数のpatchに分割することでトークン化 4

5.

動画生成モデルの課題 一貫性の問題 動画が数十秒〜数分と長くなると • キャラクターの顔や服装が変わってしまう(identity drift) • 背景やシーンの整合性が崩れる • 動きが止まったりループしたりする といった「長期的な記憶・一貫性」が維持できない 計算量の問題 • Transformerの自己注意は、トークン数 L に対して O(L²) の計算・メモリコストがかかるため、 長い動画(例:1分で 18万トークン規模)になると計算量が爆発 • 動画は時間的な冗長性が高く、連続フレームはほとんど同じ見た目だったり小さな動きしかない ため全部に注意する必要はないのにアテンションは全部見に行ってしまう”のが非効率 5

6.

Previous Research(1/4) 自己回帰的生成 Rolling Diffusion • 同時にフレームを並列で生成せず,自己回帰的にフレームを生成 • 完成した過去のフレームで条件付けられるため,コンテキストの考慮が向上 • 自己回帰なため,過去フレームの誤差が蓄積 • 計算量の問題は解決していない 6

7.

Previous Research(2/4) FramePack • フレームを圧縮していき長さを減らすことで,長いContextを少ないトークン長に抑え込める • 圧縮が発生するので,細部やコンテキストを喪失してしまう 7

8.

Previous Research(3/4) Sparse-Attention Sparse VideoGen • 構造化されたSparse Patternを設計しAttentionを削って計算コスト削減 • モデル自身が「何を見るべきか」を学習しているわけではなく人間が決めた固定パターンやヒューリス 8 ティクスに従って削っている

9.

Previous Research(4/4) Memory Context as Memory • フレームや状態を外部メモリバンクに保存し、FoV(Field-of-View)重なりなどのルールで該当フレーム を検索してcontextとして付加 • 検索ロジックが FOV などの手設計ルールに依存していて、「どの歴史が本当に重要か」をモデルがエン ドツーエンドに学習して決める形にはなっていない 9

10.

Proposed Method: MoC Mixture of Context • 長い動画フレーム系列(とテキスト) を,フレーム境界,シーン, ショット境界(PySceneDetectなどを使 用して検知)していくつかのチャンクに分割 • 全トークンに注意を張るのではなく,top-k routerで選ばれたチャンク内のトークンにのみ注意を張るこ とで計算コストを減少させる 10

11.

Router Baseline Attention • 系列の全トークンに対してSelf-Attention演算 Attention with MoC • 各チャンクの代表ベクトルをチャンク内のkey群のaverage poolingで計算 • クエリと各チャンクの代表ベクトル間のattention scoreを用いてtop-kで用いるチャンクをk個選ぶ • Top-kで選ばれたチャンク内のKey, Valueのみを使用してAttention演算 11

12.

Causal Routing Causal Routing Causal制約がない例: shot 9とshot 11がループで依存してしまい,他のショットを見に行かない • スパース routing だけだと、チャンク同士がループを作って情報がそこに閉じ込もる問題(ループク ロージャ)が起きるので,チャンク i は「自分より前のチャンクにしかルーティングしてはいけない」 という因果マスクをトップ k 前にかける • これで routing グラフは DAG になり、情報が時間方向にしか流れない 12 • ループによる motion stall や training 不安定化を防げる

13.

Router制約 強制 cross-modal link – 全ての動画クエリが テキストトークン全体に必ず attend するように固定 – 計算コストはほぼ増えない(テキストはトークン数が非常に少ない)一方で、 – プロンプトドリフトの抑制 – レア属性語が長尺で消えるのを防ぐ – テキストへの勾配の経路を確保 強制 intra-shot link / intra-chunk link – ローカルな動きや画質はスパース化せず,長距離依存にスパース性を与える 13

14.

学習時の工夫 Context Drop-off(top-k から一部をランダムに削る) – 各クエリについて、Ω(qᵢ) を計算した後、p ∼ Uniform(0, p_max) をサンプル – ⌊p·k⌋ 個のチャンクを Ω(qᵢ) からランダムにマスクアウト – これにより、「本来選ばれたコンテキストがたまに使えない」状況でも破綻し ないように学習 Context Drop-in(ランダム追加) – 逆に、m ∼ Poisson(λ) をサンプルして、ランダムなチャンクを Ω(qᵢ) に追加 – あまり使われていないチャンクにも勾配が流れ込むようにして、「死んだルー ト」を減らす狙い 14

15.

Qualitative Results • 見た目の画質や被写体・背景の一貫性は、MoC がベースラインの LCT とほぼ区別できないレベル • MoC は 注意計算の 3/4 以上を削減し、計算コストを大幅に節約 • 平均プーリング+Top-k による疎なコンテキストルーティングでも動画生成に十分な表現力があることを示唆 15

16.

Qualitative Results • 動的な疎アテンションでカメラ移動・カット後も背景 構造やネオンサインなどのレイアウト・意味が維持さ れる • マルチキャラクターのシーンでもアイデンティティが 混ざらず安定して表現されている • MoC が細部〜高レベル意味まで重要情報を正しく抽 出・活用できることを可視化 16

17.

Multi-Shot Generation • 85% のスパース化にもかかわらず主役・背景の一貫性や画質は LCT と同等以上 • Dynamic Degree(動きの多様性)が大きく向上しつつMotion Smoothness(動きの滑らかさ)を維持 • 85% のコンテキストを破棄してもFLOPs を 7× 以上削減しつつ、全体として性能はむしろ向上 • ショット数(=シーケンス長 L)が増えても、MoC の計算コストはほぼ線形にスケール • フルアテンションは L² に比例して急増し、長尺になるほど MoC の効率優位が拡大 • 8 ショット・約 18 万トークン規模で、エンドツーエンドで約 2.2× の高速化を達成 17

18.

Single-Shot Evaluation • 83% のスパース化にもかかわらずVBench の全指標(被写体・背景一貫性,動き,画質など)で ベース モデルと同等以上のスコア • FLOPs を大幅に削減しつつキャラクター忠実度とシーンコヒーレンスを維持・向上 • ただし短シーケンスではインデックス収集やプーリングのオーバーヘッドが支配的でエンドツーエンドの 速度向上は限定的 • MoC は 被写体・背景一貫性,動きの多様性(Dynamic Degree)と画質指標 を全体的に向上させつつ81% のスパース化を達成 • Wan-2.1-1.3B は MMDiT ではなく通常の DiT だが有効に機能,手法のバックボーン間一般性を示している 18

19.

Ablation on the Effect of Forced Links • Intra-shot リンクを強制しないと学習が極めて不安定になり,Subject/Background 一貫性や画質指標も 大きく悪化する • Intra-shot 強制リンクを入れると学習が安定し,さらに Cross-modal リンクを追加することで全体の性能 が向上 • 追加で Context Drop In & Out を入れると指標がさらに改善し,疎注意モデルでも勾配流れを補う「密な 経路」が重要であることを示す結果 19

20.

Ablation on Chunk Sizes and top-k • k=3 に固定してチャンク長を 64〜1024 トークンで掃くと、小さすぎるチャンク(64, 128)はスパース化 は進むが、遠距離コンテキストを失ってモーション指標が悪化 • チャンクサイズを 256 に固定して k を変化させると、k を増やすほど動きなどのスコアは改善する一方で、 スパース率は下がり FLOPs が増加 • よって,大きめのチャンク&大きな k から始めて、徐々に小さなチャンク・小さな k へ移行する漸進的なス ケジュールが、攻めたスパース化には望ましいと示唆 20

21.

まとめ Conclusion • MoC は「学習されたスパース注意ルーティング=データ駆動のメモリ検索エンジン」と して機能することを示した • 効率的なスパースルーティングと大規模データにより,長期記憶(minute-scale)を短 尺動画と同程度の計算コストで実現 • 3DプリオリやFoV選択などの明示的ヒューリスティクスなしでどの過去コンテキストが 重要かをデータから自動学習する枠組みを提示 • 二乗コストの注意ボトルネックを取り除くことで,スケーラブルかつ制御可能な長尺動 画生成モデルの新たな方向性を示す Limitation & Future Work • 現状は LCT と同一の設定でのみ学習・評価しており,さらに長いシーケンスでの計算削 減・性能は未検証 • 実行時コストはまだ 汎用attention 実装やフレームワーク側の gather 処理に依存してお り,FLOPs 7×削減に対して速度面の改善余地が大きい • 今後は ブロックスパース&チャンク対応の var-len attention,専用 CUDA/Triton カー ネル,routing+attention の融合演算,K/V のレイアウト改善や量子化など,ハード・ソ フト協調設計による高速化が課題 21