WBench:交互式视频世界模型的多轮评测基准

快速答案

WBench 是一个多轮交互基准,用 289 个测试案例、1058 轮交互来考验交互式视频世界模型,每段生成都在五个独立维度上打分——视频画质、设定遵从、交互遵从、一致性、物理合规——共 22 个自动子指标。在跑完 20 个当前最强模型后,核心结论很直白:没有任何一个模型能在五个维度上同时领先。也就是说,如今的「世界模型」是参差不齐,而非全面够好。

单轮基准为什么没抓住重点

世界模型本该是被「操控」的:你给指令,它生成视频,你看了再调整,再给指令。而以往的视频生成评测,大多只对「一条提示生成一段视频」打分,根本没考验模型能否在一连串用户干预中维持住自洽的世界。WBench 正是冲着这个缺口设计的。它明确是多轮的——1058 轮分布在 289 个案例上,平均每个案例约 3-4 轮交互——因此模型被考核的是能否扛住持续交互,而不是某一帧的运气。

你能用的四种交互方式

WBench 定义了四种交互类型,让测试不止于「描述一个场景」。用户可以发出导航(在环境中移动)、主体动作(让某个实体做出动作)、事件编辑(改变场景里发生的事)以及视角切换(移动镜头视点)。这一点很关键,因为被评测的 20 个系统并非同一类模型——这套基准混合了文本驱动、相机控制和动作条件三类世界模型,而四种交互类型让同一个基准得以比较这些通过截然不同控制通道被操控的系统。

五个维度怎么打分

每一轮都被拆解成 22 个自动子指标,再汇总到五个维度。WBench 没有用一个大型多模态裁判包打一切,而是把专门的视觉模型和多模态模型搭配起来,让每个维度由最合适的评测器来度量——例如用专门的视觉组件评一致性和物理,用多模态推理判断指令到底有没有被执行。真正让这套基准可信的设计是:这些自动指标是与人类判断对齐验证过的,而不是单方面声称相关。

关键结果

规模: 289 个测试案例、1058 轮交互,通过 22 个自动子指标在 5 个维度上打分。
覆盖: 评测了 20 个当前最强模型,横跨文本驱动、相机控制、动作条件三类世界模型,涵盖导航、主体动作、事件编辑、视角切换 4 种交互类型。
人类对齐: 每一个自动指标与人类判断的 Spearman 相关系数都不低于 0.94,其中事件编辑、主体动作、视角切换和空间一致性四项达到完全相关。
核心结论: 没有任何单一模型在五个维度上全面领先;现有系统在某些维度强、某些维度弱,单一排行榜分数会掩盖真实情况。

为什么现在重要

交互式视频世界模型正被宣传成游戏引擎、机器人模拟器和智能体训练的底座,而宣传跑在了度量前面。WBench 给这个领域提供的是一张分维度的成绩单,而不是一句感觉;0.94 以上的人类相关性才是赢得信任的部分——一个和人类意见相左的基准比没有基准更糟。这里给一个诚实判断:WBench 最有用的产出不是一个冠军,而是证明了「世界模型质量」不是一个数字。一个画质看起来很棒的模型,照样可能违反物理或偏离设定;采购方应该先问自己真正需要五个维度里的哪一个。

局限与存疑

这套基准的上限取决于它的裁判:建立在专门模型和多模态模型上的自动子指标,只能和这些模型一样有辨别力,而 0.94 的相关性在更难的案例上仍会与人类有分歧。物理合规很可能是最容易被「近似」而非真正验证的维度——核验一段视频是否遵守物理,远比核验指令有没有被执行困难。289 个案例对一套精选的多轮基准来说算合理,但也小到模型可能被针对性调优。而且领域变化太快,固定的 20 个模型只是一个快照;真正持久的贡献是这套评测协议和经人类验证的指标,而不是某次具体排名。

常见问题

WBench 到底评测什么?

WBench 从五个维度评测交互式视频世界模型——视频画质、设定遵从、交互遵从、一致性、物理合规——通过 22 个自动子指标,覆盖 289 个多轮测试案例。

WBench 和普通视频生成基准有什么不同?

WBench 是多轮且交互式的。它不是对「一条提示生成一段视频」打分,而是跑了 1058 轮交互,涵盖导航、主体动作、事件编辑和视角切换,因此模型被考核的是持续操控能力,而非单次输出。

WBench 的自动分数可信吗?

作者把 WBench 的指标与人类判断做了对齐验证,报告每个指标的 Spearman 相关系数都不低于 0.94,并在事件编辑、空间一致性等四个方面达到完全相关。

哪个世界模型在 WBench 上夺冠?

没有谁完胜。在 20 个被评测的模型里,WBench 发现没有任何单一系统能在五个维度上全面领先,因此该选哪个模型,取决于画质、物理、一致性还是指令遵从对你的场景最重要。

一句话:WBench 把「这个世界模型好不好」拆成五个独立、经人类验证的问题,答案是没有模型能五项全过。阅读 arXiv 原文。