主题

视频生成

从文本或其它条件合成视频的模型,涵盖流式与自回归扩散等方法。

ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。

CoVEBench:视频编辑能否听懂复杂指令把视频编辑复杂指令遵循变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

镜头转回旧场景时，块状状态空间循环拿到 69.0 的开放域一致性分，无记忆基线只有 12.25；激进压缩与空间摘要几乎全军覆没。

VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

不让视频模型自己硬推，而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。

Echo-Infinity 用可学习演化记忆以恒定成本压缩任意长度历史,单张 H100 上 18.5 FPS 实现 24 小时(超 130 万帧)实时生成。

SANA-Streaming 在单张 RTX 5090 上 24 FPS 端到端实时编辑 1280x704 视频，DiT 核心达 58 FPS，靠混合 DiT 与循环反向正则化保证时序一致。

VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。

Stream-R1 用视频奖励分数和逐区域困惑度给 DMD 损失重新加权,1.3B 流式模型在 VBench 拿到 84.40,反超 14B 教师的 84.26,且仍是 23.1 FPS。