主题

视觉基础模型

可迁移到识别、定位与感知任务的大型视觉表征模型。

视觉感知硬件与电路细节

视觉基础模型把图像和视频变成可复用表征,而不是为每个任务单独训练模型。核心变化是从狭窄标签集上的分类器或检测器,转向能迁移到识别、分割、密集预测、检索和多模态推理的视觉骨干。

这个主题下的论文展示了三条互补路线。ViT 把 Transformer 的 token 接口引入图像。DINOv2 强调自监督特征和数据清洗。Segment Anything 把分割改造成可提示基础能力。SAM 2 又把这种交互模式推进到视频。它们共同解释了视觉 AI 为什么从专用基准模型走向通用感知基础设施。

从这里开始

奠基论文

近期解读