机构

University of California, Merced

加州大学默塞德分校

多模态模型 · Peking University

看、记、想:视频多模态大模型的人类视角综述

综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。