机构

ByteDance

字节跳动的 AI 研究团队(Seed),在多模态生成、基础模型与视频方向持续发表研究。

TaskMem 用强化学习训练多模态智能体自己写记忆，在流式视频问答上把 VideoMME 准确率提到 67.9%，比 Qwen3-VL-30B 基线高出 6.3 个点。

RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。

SwanVoice 一次性生成整段 1-4 人对话,跨轮保持音色、情绪、韵律一致,补上逐轮合成的拼接感,代价是内容准确率仍是最弱环节。