---
title: 【DL輪読会】WorldMark: A Unified Benchmark Suite for Interactive Video World Models
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/GJ8DDW3KJD.jpg?width=480
description: 【DL輪読会】WorldMark: A Unified Benchmark Suite for Interactive Video World Models by Deep Learning JP
published: April 30, 26
canonical: https://www.docswell.com/s/DeepLearning2023/Z4NEQW-2026-05-01-111742
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/GJ8DDW3KJD.jpg)

DEEP LEARNING JP
[DL Papers]
WorldMark: A Unified Benchmark Suite for Interactive
Video World Models
Yang Hu, Matsuo Lab, M1
http://deeplearning.jp/


# Page. 2

![Page Image](https://bcdn.docswell.com/page/LJLMMNVPER.jpg)

Infos
題名
WorldMark: A Unified Benchmark Suite for Interactive Video World Models
著者
Xiaojie Xu, Zhengyuan Lin, Kang He,Yukang Feng, Xiaofeng Mao,YuanyangYin, Kaipeng Zhang,Yongtao Ge
リンク
-
Arxiv
https://arxiv.org/abs/2604.21686
-
PRJ Page
https://alaya-studio.github.io/WorldMark/
-
Arena
https://warena.ai/
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/47MYYXG27W.jpg)

Introduction
Interactive Video World Modelsの例
画面の美しさ、
アクションに対する忠実性、
長期的なシーン記憶の保持能力
…
重視すべき評価軸が多い一方で、
統一されたベンチマークはまだ存在しない！
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/P7R99NZ5E9.jpg)

Introduction
既存benchmarkの問題点
標準化された
統一環境にの
キーボード
難易度階層
シーンとアクション モデル間比較 インタラクティブ性
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/PJXQQN9X7X.jpg)

Overview
50 reference images
realistic / stylized
first-person / third-person
5 action sequences
合計 500 ケースの参照画像
生成し、
評価する
統一されたアクション空間
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/3JK99NP9JD.jpg)

Evaluation Dimensions
Visual Quality
Control Alignment
- Translation Error
- Rotation Error
- Aesthetic Quality
- Imaging Quality
World Consistency
- Reprojection Error
- State Consistency
- Content Consistency
- Style Consistency
３つの次元で、
合計8つの指標で
評価する
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/LE3WWVX9E5.jpg)

Evaluation Dimensions
Visual Quality
Control Alignment
- Translation Error
- Rotation Error
- Aesthetic Quality
- Imaging Quality
World Consistency
- Reprojection Error
- State Consistency
- Content Consistency
- Style Consistency
LAION → 美学
MUSIQ → ノイズ
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/8EDKK8287G.jpg)

Evaluation Dimensions
Visual Quality
Control Alignment
- Translation Error
- Rotation Error
- Aesthetic Quality
- Imaging Quality
World Consistency
- Reprojection Error
- State Consistency
- Content Consistency
- Style Consistency
DROID-SLAMでビデオから
カメラの3D経路を再構築
ユークリッド距離と測地距離
を測る
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/V7PKK81WJ8.jpg)

Evaluation Dimensions
Visual Quality
Control Alignment
- Translation Error
- Rotation Error
- Aesthetic Quality
- Imaging Quality
World Consistency
- Reprojection Error
- State Consistency
- Content Consistency
- Style Consistency
Dense Bundle Adjustment
+
VLM (Gemini-3.1-Pro)
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/2JVVVNY9JQ.jpg)

Experiment
YUME 1.5
Matrix-Game 2.0
HY-World 1.5
HY-GameCraft
Open-Oasis
Genie 3
6つのモデルで評価を行った
使う画像：Real images 25 + Stylized images 25、それぞれ一人称と三人称
アクション：画像ごとに5つのアクション
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/5EGLLK94JL.jpg)

Results
First person real
First person stylized
Third person (real + stylized)
要するに、
Visual Quality最強：YUME、HY-World
Control Alignment最強：HY-Game
World Consistency最強：Genie3
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/4JQYYNWR7P.jpg)

Key Findings
Visual QualityとWorld Consistencyの関連性が弱い
- YUMEの美学点数が高いが、画面が崩れやすい
- Genie3の画質が中程度しかないが、一貫したワールドを維持できる
優れたControl Alignmentは、クオリティの向上を意味するとは限らない
- HY-Gameは正確なコントロールをできるが、画質が悪い
三人称視点の生成は極めて難しい
- 各モデルの性能が大幅に下降する
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/K74WWGKQE1.jpg)

Conclusion
背景
Interactive video world modelのベンチマークがない
手法
統⼀された参照画像とアクションで、8つの指標上に評価を⾏う
結果
World Model Arena (warena.ai) を⽴ち上げ、ライブでの並列⽐較
のためのプラットフォームを提供した
13


