扩散模型 · 高效 AI

AnyFlow:用流映射蒸馏的任意步数视频扩散模型

AnyFlow 蒸馏出一个会随采样步数增加而持续变好的视频扩散模型,修掉了一致性蒸馏模型步数变多反而变差的毛病。在 Wan2.1 上从 1.3B 到 14B 参数、双向与因果架构均做了验证。

AnyFlow:用流映射蒸馏的任意步数视频扩散模型

快速答案

AnyFlow 是首个让蒸馏后的视频扩散模型质量随采样步数增加而持续上升的框架,而不是到顶或者下滑。一致性蒸馏的视频模型在 4 步时表现很好,但给它 16 步、32 步反而更差;AnyFlow 通过蒸馏整条 ODE 轨迹而不是单一的少步捷径,去掉了这个天花板。英伟达在 Wan2.1 上做了验证,覆盖 1.3B 与 14B 参数,以及双向和因果(自回归)两种设置。

一致性蒸馏带来的问题

如今的少步视频生成大多依赖一致性蒸馏:训练一个能从噪声几步跳到干净视频的快速模型。论文点出的反直觉之处在于——这些模型并不能从更多算力中受益。多分配采样步数,质量往往不升反降。这恰恰破坏了从业者对扩散模型最基本的期待:测试时扩展,即步数越多保真度越高。

AnyFlow 指出根因:一致性蒸馏用一条单独的一致性采样轨迹替换了原本的概率流 ODE 轨迹。模型学会的是”落到终点”,而不是”沿着路径走”。一旦你让它在一条它从未学过的路径上走中间步,这些额外的步只会累加误差,而不是补上细节。

AnyFlow 怎么做

核心改动是改变”蒸馏什么”。一致性方法学的是终点映射——从加噪潜变量 z_t 直接到干净的 z_0。AnyFlow 学的是流映射:沿真实 ODE 轨迹,从 z_tz_r 在任意时间区间上的转移。因为模型现在知道如何在路径上任意两点之间移动,你可以串联任意步数,且每一步都在轨迹上,所以多走几步是真的有用。

直接训练这个流映射代价很高,于是论文提出 Flow Map Backward Simulation(流映射反向模拟)。它把完整的 Euler 多步积分(多步真值)分解为捷径式的流映射转移,从而让蒸馏变成在策略(on-policy)的:学生模型在它推理时真正会经过的状态上接受监督。正是这种在策略监督,针对了论文明确点名的两类失败:少步采样的离散化误差,以及因果生成中的暴露偏差——后者指逐帧的小误差会沿自回归过程不断累积放大。

为什么”双向 + 因果”都覆盖很关键

多数蒸馏论文只挑一种架构。AnyFlow 同时报告了双向扩散(标准的整段视频生成器)和因果/自回归生成(逐帧,支撑流式与实时视频的设置)的结果。暴露偏差正是因果生成特有的病,所以证明同一套流映射方法在那里也管用,是这个工作里更有意思的那一半——它说明该方法不只是个少步小技巧,而是对长序列生成中误差累积的修正。

关键结果

  • **测试规模:**基于 Wan2.1 的模型,参数量从 1.3B 到 14B(论文标注的核心区间),覆盖双向与因果两种架构。
  • **恢复测试时扩展:**AnyFlow 的质量随采样步数预算上升(项目主页展示了 4、16、32 NFE 的对比),而一致性蒸馏的基线在超出其调好的少步区间后,步数越多越差。
  • **少步不输:**在少步区间,AnyFlow 持平或超过一致性方法,也就是说它没有为换取扩展能力而牺牲又快又省的工作点。
  • **因果更稳:**在策略的流映射监督被定位为削减自回归视频中的暴露偏差,而那正是逐帧误差本会累积的区间。

一个坦白的提醒:摘要与项目主页报告的是结果的形态——持平或超过、随步数扩展、1.3B-14B 区间、4/16/32 NFE 的对比——但在现有材料里并没有公布单一的 VBench 或 FVD 数字。可把扩展性结论视为定性验证,而具体数值待完整论文确认。

为什么现在重要

实时与流式视频生成是当前的前沿,而它的成败系于”步数与质量”的取舍。此前领域默默接受了一个设定:快速蒸馏视频模型就是会到顶——训练时选好步数,之后无法再变好。AnyFlow 主张这个天花板是蒸馏方式的产物,而非定律,并在一个快速模型里恢复了扩散”多花算力换更高质量”的特性。它构建在开源且广泛使用的视频底座 Wan2.1 之上,因此对任何要落地少步或实时视频的人都直接相关。

局限与存疑

最大的缺口是硬数字:现有材料里没有公布 VBench/FVD 分数,“持平或超过”的说法是方向性的而非量化的,复现要依赖完整论文与代码发布。方法只在 Wan2.1 家族上演示,因此向其他视频底座(或图像扩散)的迁移是假设而非已证。Flow Map Backward Simulation 相比朴素一致性蒸馏增加了训练复杂度——在策略的 rollout 分解是更多需要调对的机制——而摘要中并未量化这部分训练开销。最后,“任意步数”是个很强的词:证据覆盖的是 4 到 32 步的窗口,而非无界预算,扩展究竟能延伸多远仍是开放问题。

常见问题

AnyFlow 一句话是什么?

AnyFlow 是英伟达提出的视频扩散蒸馏框架,它学习任意时间区间上的流映射转移,使蒸馏后的模型随采样步数增加而持续变好,而不像一致性蒸馏模型那样反而变差。

为什么一致性蒸馏的视频模型步数越多越差,AnyFlow 怎么修?

一致性蒸馏训练模型沿一条特殊的一致性轨迹跳到终点,而非真实 ODE 路径,所以中间步会偏离轨迹、累加误差。AnyFlow 蒸馏的是 ODE 路径上任意两点之间的真实流映射,让每一额外步都留在轨迹上。

AnyFlow 里的 Flow Map Backward Simulation 是什么?

它把完整的多步 Euler rollout 分解为捷径式的流映射转移,实现在策略蒸馏——在学生模型推理时真正会经过的状态上做监督,从而减少少步离散化误差和因果生成的暴露偏差。

AnyFlow 在哪些模型和规模上做了测试?

AnyFlow 在基于 Wan2.1 的模型上验证,参数量从 1.3B 到 14B,覆盖双向与因果(自回归)两种架构。

AnyFlow 公布了基准分数吗?

摘要与项目主页说明它在少步区间持平或超过一致性方法,并随采样步数扩展(展示了 4、16、32 NFE),但现有材料里没有给出单一的 VBench 或 FVD 数字。

一句话:蒸馏整条路径而非终点,快速视频模型就能再次靠多花步数换来更高质量。阅读 arXiv 上的原始论文