>100 Views
April 30, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] WorldMark: A Unified Benchmark Suite for Interactive Video World Models Yang Hu, Matsuo Lab, M1 http://deeplearning.jp/
Infos 題名 WorldMark: A Unified Benchmark Suite for Interactive Video World Models 著者 Xiaojie Xu, Zhengyuan Lin, Kang He,Yukang Feng, Xiaofeng Mao,YuanyangYin, Kaipeng Zhang,Yongtao Ge リンク - Arxiv https://arxiv.org/abs/2604.21686 - PRJ Page https://alaya-studio.github.io/WorldMark/ - Arena https://warena.ai/ 2
Introduction Interactive Video World Modelsの例 画面の美しさ、 アクションに対する忠実性、 長期的なシーン記憶の保持能力 … 重視すべき評価軸が多い一方で、 統一されたベンチマークはまだ存在しない! 3
Introduction 既存benchmarkの問題点 標準化された 統一環境にの キーボード 難易度階層 シーンとアクション モデル間比較 インタラクティブ性 4
Overview 50 reference images realistic / stylized first-person / third-person 5 action sequences 合計 500 ケースの参照画像 生成し、 評価する 統一されたアクション空間 5
Evaluation Dimensions Visual Quality Control Alignment - Translation Error - Rotation Error - Aesthetic Quality - Imaging Quality World Consistency - Reprojection Error - State Consistency - Content Consistency - Style Consistency 3つの次元で、 合計8つの指標で 評価する 6
Evaluation Dimensions Visual Quality Control Alignment - Translation Error - Rotation Error - Aesthetic Quality - Imaging Quality World Consistency - Reprojection Error - State Consistency - Content Consistency - Style Consistency LAION → 美学 MUSIQ → ノイズ 7
Evaluation Dimensions Visual Quality Control Alignment - Translation Error - Rotation Error - Aesthetic Quality - Imaging Quality World Consistency - Reprojection Error - State Consistency - Content Consistency - Style Consistency DROID-SLAMでビデオから カメラの3D経路を再構築 ユークリッド距離と測地距離 を測る 8
Evaluation Dimensions Visual Quality Control Alignment - Translation Error - Rotation Error - Aesthetic Quality - Imaging Quality World Consistency - Reprojection Error - State Consistency - Content Consistency - Style Consistency Dense Bundle Adjustment + VLM (Gemini-3.1-Pro) 9
Experiment YUME 1.5 Matrix-Game 2.0 HY-World 1.5 HY-GameCraft Open-Oasis Genie 3 6つのモデルで評価を行った 使う画像:Real images 25 + Stylized images 25、それぞれ一人称と三人称 アクション:画像ごとに5つのアクション 10
Results First person real First person stylized Third person (real + stylized) 要するに、 Visual Quality最強:YUME、HY-World Control Alignment最強:HY-Game World Consistency最強:Genie3 11
Key Findings Visual QualityとWorld Consistencyの関連性が弱い - YUMEの美学点数が高いが、画面が崩れやすい - Genie3の画質が中程度しかないが、一貫したワールドを維持できる 優れたControl Alignmentは、クオリティの向上を意味するとは限らない - HY-Gameは正確なコントロールをできるが、画質が悪い 三人称視点の生成は極めて難しい - 各モデルの性能が大幅に下降する 12
Conclusion 背景 Interactive video world modelのベンチマークがない 手法 統⼀された参照画像とアクションで、8つの指標上に評価を⾏う 結果 World Model Arena (warena.ai) を⽴ち上げ、ライブでの並列⽐較 のためのプラットフォームを提供した 13