多模态模型 · The Chinese University of Hong Kong
X-Stream:多路视频流为何让 MLLM 只拿 50 分
X-Stream 是首个多路并发视频流理解基准。最强的 Gemini 3 Pro 仅 49.6%,人类却有 91.84%,主动反应能力更跌破 21%。
机构
华为的研究实验室,研究覆盖 AI 系统、高效推理与机器学习,分布于其计算与苏黎世研究中心。
多模态模型 · The Chinese University of Hong Kong
X-Stream 是首个多路并发视频流理解基准。最强的 Gemini 3 Pro 仅 49.6%,人类却有 91.84%,主动反应能力更跌破 21%。
KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。