Echo-Infinity:可学习演化记忆,实时无限视频生成

快速答案

Echo-Infinity 是一个自回归视频扩散模型,核心思路是让模型自己学习”该记住什么”,而不是用固定规则人工裁剪历史。它用可学习的演化记忆取代固定 KV 缓存调度和启发式压缩,在单张 H100 上跑到 18.5 FPS,并演示了超过 130 万帧的 24 小时实时 rollout——作者称这是首次实现。在 VBench-Long 上,它在 30 秒时得分 85.61、240 秒时仍有 82.01,远比那些缓存窗口填满后就开始漂移的记忆方案更耐久。工作来自 CUHK、HKUST、清华、港大、北大、中科大与京东探索研究院的联合团队。

问题:记忆才是长视频的瓶颈

逐帧自回归视频模型理论上可以一直跑下去,但每生成一帧都要回看历史,而历史无限增长。此前所有无限视频方法都用预定规则裁剪历史:固定 KV 缓存窗口、固定比例压缩,或推理期 RoPE 适配。这三种做法都用同一种方式丢信息,完全不看视频实际内容,也都没考虑自回归生成给自己过去帧注入的噪声。结果就是误差累积:rollout 越长,模型越偏离最初的场景。真正的问题不是怎么便宜地存更多帧,而是怎么判断哪些值得留。

演化记忆怎么工作

Echo-Infinity 借鉴人类记忆固化:保留抽象要点,丢掉原始细节。它不直接缓存过去帧,而是维护一小组可学习的 Memory Query 令牌。当某帧被挤出局部注意力窗口时,它的信息通过注意力和门控机制被折叠进这些查询里,于是查询逐步累积起所有历史的压缩摘要。关键在于,这些查询是和视频扩散 Transformer 端到端联合训练的,而非由启发式固定,所以模型学会了该过滤、抽象、压缩哪些历史。由于记忆是固定大小的查询集合,无论视频多长,每帧计算量都保持恒定,压缩比也可任意设定。

第二个部件是 Unified Relative RoPE Recipe。朴素自回归 rollout 会把位置索引推过基础 DiT 预训练时的最大时序 RoPE id,导致外推失败。Echo-Infinity 锚定 sink 帧,让帧 id 至多增长到预训练上限,从而消除有限 RoPE 约束,且无需从头重训位置方案。

关键结果

实时无限 rollout: 24 小时生成、超过 130 万帧实时完成,作者称为首次演示。
速度: H100 上 18.5 FPS,与竞品同档(LongLive 20.7、MemFlow 18.7、Memorize-and-Generate 21.7),但质量保持得远更久。
长视频 VBench-Long: 30 秒 85.61、240 秒 82.01,长时段语义得分 59.53。
交互 60 秒: 质量分 81.71,CLIP 分 34.10。
短视频 VBench 5 秒: 总分 85.35、质量 86.32、语义 81.49,说明记忆机制没有牺牲短片质量。

诚实地看:吞吐量有竞争力但不是亮点,对手只差几 FPS。真正的差异在于,在 240 秒长片和 24 小时 rollout 中,固定记忆基线会退化,而 Echo-Infinity 因为记忆是学出来的而非调度出来的,质量得以保持。

局限与存疑

24 小时、130 万帧的说法证明的是稳定性和吞吐,而非长程语义连贯——VBench 衡量单片质量,不衡量一小时叙事里世界是否前后一致。长时段语义分(240 秒 59.53)远低于短片语义(5 秒 81.49),说明视觉质量虽稳,语义仍在侵蚀。与简单 KV 缓存方法的速度持平意味着收益是有条件的:用这套可学习记忆是为了长 rollout 的质量,而非纯 FPS。所报数字均为单一配置的基准结果,学到的压缩在极长 rollout 中遇到分布外场景切换或硬切时如何表现,本文未刻画。

常见问题

Echo-Infinity 是什么?

Echo-Infinity 是一个面向实时无限视频生成的自回归视频扩散框架,以恒定的每帧成本学习过去帧的演化记忆,而非用固定规则裁剪历史。它演示了超过 130 万帧的 24 小时实时 rollout。

可学习演化记忆和 KV 缓存有何不同?

KV 缓存直接存储过去帧的键值并按固定调度淘汰,窗口外的信息直接丢失。Echo-Infinity 则通过注意力和门控把被淘汰的帧折叠进可学习的 Memory Query 令牌,历史被摘要而非丢弃,且查询经端到端训练来决定什么重要。

Unified Relative RoPE Recipe 是什么?

这是一种位置编码方案,锚定 sink 帧并限制帧 id 增长幅度,使其保持在基础 DiT 预训练的最大时序 RoPE id 之内,从而避免自回归 rollout 把位置推过训练范围时的外推失败。

Echo-Infinity 能跑多快多久?

单张 H100 上 18.5 FPS,演示了超过 130 万帧的 24 小时实时 rollout,且每帧计算量与视频长度无关、保持恒定。

一句话:与其调度”该忘什么”,不如学习”该记什么”,视频模型就能连跑 24 小时而不出现拖垮固定记忆方案的漂移。阅读 arXiv 原文。