Mirage:潜空间记忆让视频世界模型快 10 倍

快速答案

Mirage 让视频世界模型保持空间一致的办法,是把场景的 3D 记忆直接缓存在扩散潜空间里,而不是存成显式的 RGB 点云。仅这一处改动就去掉了以往方法每生成一段就要重复的「渲染—重编码」回路:Mirage 端到端快 10.57 倍、显存省 55 倍,WorldScore 平均分仍以 70.36 登顶,略胜此前最强的 Spatia(69.73)。它构建在 Wan2.2-TI2V-5B 视频扩散主干之上。

RGB 点云记忆的麻烦

视频世界模型必须记住自己已经生成过什么——这样当镜头转回三十帧前画过的那面墙时,墙还在原处。主流做法是在 RGB 空间维护一团显式 3D 点云:把潜变量解码成像素,再用深度把像素抬升到 3D,然后把渲染出的视图重新编码回潜变量,供下一步使用。

这趟往返在两头都是瓶颈。它慢,因为每一段都要付出 VAE 解码、渲染、再 VAE 编码的代价;它也有损,因为扩散模型的潜空间 token 携带着丰富的学习特征,一旦塌缩成 RGB 再读回来,这些特征就被抹平了。你扔掉的,正是模型真正用来「思考」的那套表征。

Mirage 怎么做

Mirage 在潜空间里构建记忆,而且全程不离开潜空间。它用深度引导的反投影把潜 token 抬升到 3D,存下一团持久的潜空间点云,而非 RGB 点云。要生成新视角时,它直接把存储的潜变量按目标相机位姿做形变(warping),再把形变后的潜变量作为条件喂给扩散模型。没有像素解码,也没有重编码。

主干是 Wan2.2-TI2V-5B,其 VAE 的空间步长为 16、时间步长为 4、潜通道数为 48——也就是说每个潜 token 本身就概括了一个 16x16 的像素块,这恰恰解释了为何在该分辨率上保存记忆,比逐像素点云便宜得多。由于形变作用在模型用来做条件的那批 token 上,模型「看到」的几何始终不必绕道像素这条有损的弯路。

真正出力的是一个诚实的设计取舍:动态区域过滤器。运动物体的逐帧几何不可靠,于是 Mirage 把它们排除出持久记忆,只缓存刚性的场景结构。这让 3D 缓存保持干净,但也圈定了该方法的主要局限(见下文)。

关键结果

WorldScore 平均分 70.36,SOTA,领先此前最强基线 Spatia 的 69.73——头部分数上是一个微弱胜出。
3D 一致性 92.21、光度一致性 93.95,这两项直接衡量「回看时几何是否原地不动」,正是空间记忆该兑现价值的地方。
静态得分 73.60、动态得分 67.11;两者的落差正映射出动态区域过滤器——刚性静态场景的得分高于运动密集的场景。
端到端生成快 10.57 倍,对比显式 RGB 点云记忆。
显存占用降低 55 倍,对比那些显式 3D 基线。

效率数字才是真正的看点;若只论质量,它对 Spatia 的 WorldScore 领先幅度小到只能算一篇增量工作。让它有分量的,是在质量持平或更好的前提下拿到 10 倍速度、55 倍显存。

为什么现在重要

视频世界模型正走向交互式、长时程生成——类游戏环境与具身模拟器,镜头可以自由游走,场景要持续数分钟而非数秒。显式点云路线撑不住这个目标:渲染/编码成本随着记住的每一段持续增长。把记忆留在潜空间,Mirage 正是攻向那个挡住更长 rollout 的成本点;而且它无需重训新主干,只是包住一个已发布的扩散模型(Wan2.2)。这让这个想法易于采用、也易于对比。

局限与存疑

动态区域过滤器是头号注意事项。由于运动实体被排除出持久记忆,Mirage 无法跨段维持动态角色的状态——一个走出画面又走回来的人,不保证一致地复现。运动主导的场景获益远小于刚性、几何密集的场景,动态得分(67.11)落后于静态得分(73.60)在数字上就能看出来。

相对 Spatia 的质量优势很薄(70.36 对 69.73),所以评估 Mirage 时应把它当成效率上的胜利,而非质量上的飞跃。潜空间形变也会继承它依赖的深度估计,深度引导反投影里的误差会传导进缓存。而且所有结果都绑定在单一主干 Wan2.2-TI2V-5B 上;潜空间记忆能否干净地迁移到步长、通道数不同的其它 VAE,本文并未验证。

常见问题

Mirage 里的潜空间记忆是什么?

它是一团持久的 3D 缓存,把视频世界模型的场景记忆存在扩散潜空间里,而不是存成 RGB 点云。潜 token 通过深度引导的反投影被抬升到 3D,再通过向新相机位姿形变来查询,从而避开任何像素空间的解码与重编码。

Mirage 比点云世界模型快多少?

Mirage 端到端比显式 RGB 点云基线快 10.57 倍、显存省 55 倍,同时 WorldScore 平均分更高(70.36 对 Spatia 的 69.73)。

Mirage 用的是什么主干?

Mirage 构建在 Wan2.2-TI2V-5B 视频扩散模型之上,其 VAE 的空间步长为 16、时间步长为 4、潜通道数为 48。

Mirage 的主要弱点是什么?

它通过动态区域过滤器把运动物体从持久记忆中剔除,因此无法跨段保持动态角色一致。运动密集的场景获益远小于刚性几何场景,而它对此前最强方法的 WorldScore 领先也很窄。

一句话:把世界模型的 3D 记忆存进潜空间,跳过像素往返,在 SOTA 的 WorldScore 上拿到 10 倍速度。阅读 arXiv 原文。