ICCV 2025の動画生成を眺めてみた

361 Views

November 08, 25

スライド概要

第65回 コンピュータビジョン勉強会@関東で発表する予定のサーベイ内容です。このスライドでは動画が流れませんので、実際の動画の様子は各引用元や中継動画を見てください。

profile-image

サラリーマン研究員。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

ICCV 2025の 動画生成を眺めてみた 尾崎安範

2.

自己紹介 • 尾崎安範(ハンドルネーム: あるふ) • AIエンジニアらしい • 最近やっていること • 動画生成の研究開発 • GENIACという国家プロジェクトの支援を受けて動画生成を研究開発している • 動画生成の運用 • GENIACの支援を受けてアニメ生成プラットフォームを運用している • 画像生成に関して省庁に説明 • 動画生成についても省庁考えてほしい

3.

最近の研究開発モチベ 1. 日本で動画生成の研究開発を誰もやらない • 最低でも数億円以上は必要なため、大手企業ぐらいしかできない • でも、炎上というレピュテーションリスクがあるため、やらない • したがって、誰もできないしやらないのである 2. コンテンツ産業を基幹産業と位置づける日本が どうみてもコンテンツ産業の基盤となりうる技術を 研究開発しないのは、やばすぎる 3. ということで動画生成の研究開発を国内に流行らせたい

4.

ICCVにおける動画生成の様子 • ChatGPTに依頼して適当に作った ICCV 2025 論文タイトルのワードクラウド • 動画生成の基盤技術、 拡散モデルが世界的に流行る • Diffusion model, video, generation, image, synthesis, dataset など • 国内も流行らせる • まずは論文のサーベイから はじめよう https://iccv.thecvf.com/Conferences/2025/AcceptedPapersより作成

5.

論文のサーベイ方法 1. ICCV 2025のタイトル一覧からVideoと名のつくものをすべて チェック • あとそもそも知ってた論文もチェック 2. その中から動画生成関連でおもしろそうな論文をピックアッ プ • なお、全部紹介できないのでおまけに移しました 3. さらに役立ちそうなものを厳選 4. 厳選した結果が次のページから

6.

【参考】予備知識 • 動画生成 (Sora 2など) • テキストや画像から動画を生成する技術 • Classifier-Free Guidance (CFG) • 拡散モデルで推論するときに1ステップあたり2回推論すると 画像品質や映像品質が大幅に上がるという手法 • 拡散トランスフォーマー (DiT) • 拡散モデルでバックボーンに使われていたU-Netを Transformerに置き換えた手法 • LLM同様スケーリング則が成り立つと言われている • 画像生成や動画生成、音楽生成のデファクトスタンダード • Wan 2.1 • DiTで作られたオープンウェイトの動画生成モデル

7.

StreamDiffusion: A Pipelinelevel Solution for Real-Time Interactive Generation Akio Kodaira1∗ Chenfeng Xu1,∗ Toshiki Hazama1,∗ Takanori Yoshimoto2 Kohei Ohno3 Shogo Mitsuhori4 Soichi Sugano5 Hanying Cho6 Zhijian Kiu7 Masayoshi Tomizuka1 Kurt Keutzer1 1UC Berkeley 2University of Tsukuba 3 International Christian University 4Toyo University 5Tokyo Institute of Technology 6Tohoku University 7MIT

8.

StreamDiffusion • 概要 • 画像生成をリアルタイムで行うために極限まで最適化した • 技術的におもしろいポイント • 計算の冗長性を最小限に抑えるCFGといった技の集合体でできており、 100fpsぐらいを叩き出すほどの気合がおもしろい • その他 • 落合陽一さんが万博で使っていたらしい • 続編として動画生成版のStreamDiTがある • Githubのスター10k以上

9.

StreamDiffusionの生成っぷり https://github.com/cumulo-autumn/StreamDiffusionより引用

10.

VACE: All-in-One Video Creation and Editing Zeyinzi Jiang Yu Liu Zhen Han∗ Chaojie Mao† Jingfeng Zhang Tongyi Lab, Alibaba GroupEqual Contribution. † Project lead. Yulin Pan

11.

VACE • 概要 • 動画生成や動画編集を統一的に扱うフレームワークを提案した • 技術的におもしろいポイント • Context Adapter TuningというDiTに対して小規模な学習で 動画編集などを行えることがわかったこと • その他 • 実装としては Wan2.1-VACE-14B などがある • これを応用してプロンプトによる 編集能力を高めた研究*がある *Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

12.

VACEの生成っぷり https://ali-vilab.github.io/VACE-Page/より引用

13.

【参考】実写風生成動画を プロンプトでアニメ風にしてみた 1. Sora 2で作った動画 • 子猫が孵化する様子 2. これをアニメ化 • “Make the cat in the egg the Japanese anime style.” Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Datasetを利用

14.

FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models Minghan Li1,2*, Chenxi Xie3∗ , Yichen Wu4,5 , Lei Zhang3 and Mengyu Wang1,2,6† 1Harvard AI and Robotics Lab, Harvard University, 2Broad Institute, 3Hong Kong Polytechnic University 4School of Engineering and Applied Sciences, Harvard University, 5City University of Hong Kong 6Kempner Institute for the Study of Natural and Artificial Intelligence, Harvard University

15.

FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models • 概要 • 物体を変えるなどする動画編集モデルを自動評価する方法を作った • 技術的におもしろいポイント • 視覚言語モデルを使って人手評価とほぼ近い値を実現しているところ • その他 • Wan 2.1ベースとかの動画編集手法も取り上げている

16.

まとめ • 動画生成の研究開発を国内に流行らせたい • とりあえず、ICCV2025のサーベイをしてみた • このサーベイをきっかけに流行るとうれしい

17.

気になった論文一覧 (1/3) • StreamDiffusion: A Pipeline-level Solution for Real-Time Interactive Generation • GameFactory: Creating New Games with Generative Interactive Videos • Synthetic Video Enhances Physical Fidelity in Video Synthesis • I2VControl: Disentangled and Unified Video Motion Synthesis Control • FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models

18.

気になった論文一覧 (2/3) • From Image to Video: An Empirical Study of Diffusion Representations • VACE: All-in-One Video Creation and Editing • Free2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large VisionLanguage Models • Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis • Mobile Video Diffusion

19.

気になった論文一覧 (3/3) • ETVA: Evaluation of Text-to-Video Alignment via Finegrained Question Generation and Answering • How Far are AI-generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach • LiON-LoRA: Rethinking LoRA Fusion to Unify Controllable Spatial and Temporal Generation for Video Diffusion • LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models • LayerAnimate: Layer-level Control for Animation