主题

世界模型

随时间模拟一致、可控环境的生成模型。

ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。

AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

镜头转回旧场景时，块状状态空间循环拿到 69.0 的开放域一致性分，无记忆基线只有 12.25；激进压缩与空间摘要几乎全军覆没。

Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面，并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。

Echo-Infinity 用可学习演化记忆以恒定成本压缩任意长度历史,单张 H100 上 18.5 FPS 实现 24 小时(超 130 万帧)实时生成。

Causal Forcing++ 把双向视频扩散蒸馏成 1-2 步逐帧自回归生成器,跑到 14.1 FPS,首帧延迟降一半,少步训练成本砍约 4 倍。

MIGA 无需训练、显存恒定,把短片扩散模型变成千帧级生成器,VBench 上 VideoCrafter2 拿 97.82 总分,比 FIFO-Diffusion 高约 2.8 分。

英伟达的多人交互视频世界模型，蒸馏后以 24 FPS 实时推理，从两人到四人无需重新训练，FVD 较 Solaris 几乎砍半。

Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。

LongLive-2.0 让 5B 长视频模型全程跑在 NVFP4 4 比特上,720p 达 45.7 FPS,训练快 2.1 倍、推理快 1.84 倍,VBench 仅降半分。

Stream-R1 用视频奖励分数和逐区域困惑度给 DMD 损失重新加权,1.3B 流式模型在 VBench 拿到 84.40,反超 14B 教师的 84.26,且仍是 23.1 FPS。

Stream-T1 不重训,只在推理时搜索,就把 5 秒片段的 VideoAlign 运动质量从 0.350 提到 0.629,并压住毁掉 30 秒长片的漂移。

WBench 用 289 个案例、1058 轮交互,从画质、设定、交互、一致性、物理五个维度评测交互式视频世界模型,结论是没有一个模型五项全赢。