多模态模型 · Peking University 看、记、想:视频多模态大模型的人类视角综述 综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。