PF-OPSD：多模态大模型该何时信任世界模型的视频

快速答案

多模态大模型（MLLM）擅长用语言推理目标和规则，视频世界模型则能”放映”出场景几帧之后可能的样子。PF-OPSD（Privileged-Future On-Policy Self-Distillation，特权未来在线策略自蒸馏）是一套训练方法，教 Qwen3.5-9B 学生模型把两者协调起来：判断何时模拟未来才有用、生成的画面是否可信、以及它应该在多大程度上左右最终答案。

两个核心数字都在论文表格里得到验证：在 VRQABench 上 PF-OPSD 拿到 72.4%，监督微调（SFT）基线为 61.8%，提升 10.6 个百分点；在 OpenWorldQA 上拿到 70.5%，SFT 基线为 59.6%，提升 10.9 个百分点。关键在于：真实未来视频只在训练时给”老师”看，部署后的学生模型在测试阶段从不接触真实未来。

真正的难点：画面好看却答错

像 Helios 这样的视频世界模型（本文使用的放映引擎）能生成视觉上很合理的未来，但这些未来是随机的。一段画面可能拍得很逼真，却在任务上是错的——比如球落进了错误的杯子，或者迷宫里的智能体直接穿墙而过。把这种画面原封不动喂给 MLLM，比直接忽略它还糟。

因此论文把任务重新定义为受控的具体推理：模型必须（1）只在确有帮助时才调用视觉模拟，（2）核验某段放映是否可信，（3）把可信部分融入抽象推理链。这个”门控”决策才是真正的贡献。大多数”世界模型增强”的流水线都默认放映是可信的，而本文默认它通常不可信。

PF-OPSD 怎么工作

“特权”思路来自特权信息学习。训练时，老师（Gemini-3.1-Pro 加一套 agent 工作流）能看到真实未来视频和标准答案，并用这个特权视角去给学生自己产生的在线策略推理轨迹打分：这次调用世界模型是否正确、对画面可信度的判断对不对、融合那一步有没有帮助。

随后用老师给出的信号加权，让学生在自己的优质轨迹上做自蒸馏。监督是在线策略式的：评分针对学生真实产出，而非固定数据集，学生学到的是一套对”该信还是该弃”经过校准的策略。部署时特权未来被完全移除，因此不存在测试期信息泄漏。

两个基准的内部构造

作者自建了两个经人工核验的基准，因为现有数据集都无法单独考查这项能力。

VRQABench（4,636 题，约 4,000 训练 / 636 评测）针对可控的空间前瞻，基于迷宫与推箱子式谜题，正确答案取决于向前模拟几步。
OpenWorldQA（4,404 题，约 3,904 训练 / 500 评测）针对从真实视频帧出发的开放域物理预测，取材自 Charades、Something-Something V2、Oops 等。

两个消融实验值得点名，因为它们揭示了增益来自哪里：去掉放映核验，VRQABench 从 72.4% 跌到 65.2%；去掉优势加权，跌到 66.4%。两个消融版本仍都高于 61.8% 的 SFT 基线，说明在线策略自蒸馏本身就在做实事，核验机制是锦上添花。

为什么现在重要

眼下大家都在把视频生成器接到 agent 上，并默认这套模拟是免费的”先知”。本文是个有用的反向提醒：价值不在放映本身，而在于知道何时该忽略放映。一个 9B 学生模型、测试期不接触真实未来，仅靠学会这套门控就拿到约 10 个点的提升，是个干净的结果。

我的实话：增益是真的，但适用范围偏窄。两个基准都是图像条件、短时程的，世界模型做的是几帧前瞻而非长程规划。老师依赖强力闭源模型（Gemini-3.1-Pro）加 agent 工作流，复现这个特权信号并不便宜。如果你做的是长程规划或交互式具身控制，这是一颗方法论的种子，而非即插即用的方案。

关键结果

VRQABench +10.6 点：PF-OPSD 72.4% 对 SFT 基线 61.8%，学生模型为 Qwen3.5-9B。
OpenWorldQA +10.9 点：70.5% 对 59.6%。
核验最关键：去掉放映核验损失 7.2 点（72.4% → 65.2%）；去掉优势加权损失 6.0 点（→ 66.4%）。
无测试期泄漏：真实未来只给老师，部署学生仅凭问题和静态图作答。
更鲁棒：论文报告对含噪或自相矛盾的放映更鲁棒，这是门控策略的实用收益。

局限与存疑

图像条件、短时程。 作者明确结论主要适用于世界模型能产出相关未来的场景；更长时程与交互式环境不在范围内。
老师成本高。 特权信号来自 Gemini-3.1-Pro 加 agent 工作流并能看到标准未来，没有强力闭源模型很难复现。
两个基准出自同一团队。 VRQABench 与 OpenWorldQA 虽经人工核验，但仍缺第三方在独立任务上的复现。
依赖世界模型质量。 结果建立在 Helios 级别的放映之上，更弱的生成器可能彻底改变”该不该信”的权衡。

常见问题

PF-OPSD 到底训练 MLLM 做什么？

它训练 Qwen3.5-9B 把视频世界模型当成一个不可全信的顾问：只在模拟有帮助时调用、核验每段放映是否可信、并控制放映对最终答案的影响权重，而不是盲目相信生成的未来画面。

《World Models Meet Language Models》的提升有多大？

PF-OPSD 在 VRQABench 上比监督微调基线高 10.6 个百分点（72.4% 对 61.8%），在 OpenWorldQA 上高 10.9 个百分点（70.5% 对 59.6%）。

模型在测试时会看到真实的未来视频吗？

不会。真实未来视频和答案只在训练时作为老师端的特权上下文使用，部署后的学生模型从不接触真实未来，仅凭问题和静态图像作答。