想象式感知标记:让多模态模型「画出」空间而非「描述」空间

快速答案

想象式感知标记(Imaginative Perception Tokens,IPT)让视觉语言模型先生成一张中间图像——它对「在另一种空间配置下会看到什么」的预测,比如换个视角、追踪一条路径——再基于这张渲染出的画面推理,而不是用文字。模型以 BAGEL 为骨干,在「视角转换、路径追踪、多视角计数」三类任务、约 2 万条样本上训练:IPT 把多视角计数准确率提升 3.4%,在路径追踪上与闭源模型不相上下。更尖锐的发现是:文本思维链训练有时反而让空间准确率下降,因为把几何运算硬塞进语言本身就是一种模态错配。

问题:把空间推理硬塞进语言

视觉语言模型不擅长那些需要在脑中「走进场景」的问题——「从另一侧看这张桌子是什么样」「这条路能不能走到门口」「几张视图里一共有几个不同物体」。常见的补救是文本思维链:让模型先一步步用文字叙述推理,再给答案。对空间任务而言,这种叙述是错的工具。模型用散文去描述旋转、遮挡、物体重识别,等于把一个几何操作翻译成一串本就不为承载坐标而生的标记。论文把这叫模态错配,其表现就是思维链训练不升反降。

IPT 如何工作

IPT 把模型的空间猜测外化成一个感知产物,而不是一句话。面对空间问题时,模型吐出的标记会解码成一张中间图像——它对「在问题暗示的另一种配置下会感知到什么」的预测。这张想象出的视图同时充当监督信号与证据:训练目标是让模型渲染的猜测对齐真实的另一视角,而下游答案是从这张想象的感知中读出,而非从文字描述中读出。

系统以 BAGEL 为骨干——一个既能理解又能生成图像的统一模型——正因如此,「预测你会看到的像素」是它的原生能力,而非外挂模块。训练覆盖三种空间技能:视角转换(从新视角重新渲染)、路径追踪(沿场景中的路线走)、多视角计数(在同一场景的多张图之间核对物体数量),合计约 2 万条样本。

为什么想象的像素胜过叙述的步骤

关键在于:几何全程留在视觉模态里。在多视角下数物体,如果模型把每张视图都用文字重述一遍,就会弄丢「哪个物体是哪个」;而如果模型重建出一个一致的视觉场景再在其中计数,效果更好。论文还报告:把 IPT 监督与单纯的标签监督结合,效果会叠加——想象视图信号和最终答案信号并不冗余。这是个有用且不显然的结果:它意味着中间渲染教会了模型一些光靠答案标签学不到的东西。

关键结果

多视角计数:准确率 +3.4%,IPT 相对相关基线的主要增益。
路径追踪:与闭源模型不相上下,即一个开源的 BAGEL 系统在至少一项空间任务上缩小了与专有 VLM 的差距。
IPT 与标签监督可叠加,比任一单独信号更好。
文本思维链有时拖累表现,这是模态错配最直接的证据——叙述几何可能净亏。
范围是 三项任务、约 2 万样本,是聚焦研究,而非大规模基准横扫。

局限与存疑

绝对增益并不大——单项任务上 3.4% 是真实的,但谈不上颠覆;「与闭源模型不相上下」是有保留的措辞,而非干净的胜利。评测只覆盖三类精挑的空间技能、数据集很小,IPT 是否能帮到开放世界导航、机器人或杂乱的真实照片,尚未验证。为每个问题生成一张中间图像比吐文字更昂贵,论文并未突出这部分延迟与算力成本。IPT 还会继承 BAGEL 生成器的所有错误:一旦想象的视图是幻觉,模型就在对着一张自信而错误的图推理。诚实的判断是:这更像一个有力的方向性结论——空间推理该放在像素里,而非散文里——而非一套已经可部署的成品配方。

常见问题

什么是想象式感知标记(IPT)?

IPT 是视觉语言模型吐出的一组标记,解码后是一张中间图像,展示它在另一种空间配置(如新视角)下会感知到的画面。模型基于这张渲染视图推理,而不是用文字描述场景。

为什么文本思维链会拖累 VLM 的空间推理?

用语言叙述几何是模态错配:旋转、遮挡、物体重识别本是视觉操作,硬塞进标记序列会丢信息。论文发现文本思维链训练有时会降低空间准确率,而非提升。

IPT 能把空间推理提升多少?

IPT 把多视角计数准确率提升 3.4%,并在路径追踪上与闭源模型不相上下,覆盖视角转换、路径追踪、多视角计数三类任务,训练样本约 2 万条。

IPT 基于什么模型?

IPT 以 BAGEL 为骨干,这是一个既能理解又能生成图像的统一模型。正是这种双重能力,让模型能把想象的视角渲染出来,而不只是为它配上文字说明。

一句话:别再让视觉模型用文字描述空间——让它把像素想象出来,在那里推理。阅读 arXiv 原文。