主题

视觉基础模型

可迁移到识别、定位与感知任务的大型视觉表征模型。

视觉感知硬件与电路细节

视觉基础模型把图像和视频变成可复用表征，而不是为每个任务单独训练模型。核心变化是从狭窄标签集上的分类器或检测器，转向能迁移到识别、分割、密集预测、检索和多模态推理的视觉骨干。

这个主题下的论文展示了三条互补路线。ViT 把 Transformer 的 token 接口引入图像。DINOv2 强调自监督特征和数据清洗。Segment Anything 把分割改造成可提示基础能力。SAM 2 又把这种交互模式推进到视频。它们共同解释了视觉 AI 为什么从专用基准模型走向通用感知基础设施。

从这里开始

自监督学习 · Meta AI

DINOv2：不用标签学习通用视觉特征

DINOv2 通过大规模自监督训练和数据清洗，得到可迁移到多类视觉任务的稳健特征。

图像分割 · Meta AI

Segment Anything：把图像分割做成可提示的基础能力

SAM 将图像分割重构为可提示任务，并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。

视觉基础模型 · Google Research

Vision Transformer：把图像切成 token

ViT 证明在足够大规模训练下，把图像切成 patch 后交给标准 Transformer，也能在图像识别中取得强表现。

奠基论文

视觉基础模型 · Google Research

Vision Transformer：把图像切成 token

ViT 证明在足够大规模训练下，把图像切成 patch 后交给标准 Transformer，也能在图像识别中取得强表现。

多模态模型 · OpenAI

CLIP:让计算机视觉学会读自然语言

CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。

多模态模型 · Google DeepMind

Flamingo：把少样本提示带进视觉语言模型

Flamingo 将预训练视觉编码器和大语言模型连接起来，让图像、视频和文本任务可以通过少量示例完成。

图像分割 · Meta AI

Segment Anything：把图像分割做成可提示的基础能力

SAM 将图像分割重构为可提示任务，并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。

近期解读

自监督学习 · Meta AI

DINOv2：不用标签学习通用视觉特征

DINOv2 通过大规模自监督训练和数据清洗，得到可迁移到多类视觉任务的稳健特征。

多模态模型 · Google DeepMind

Flamingo：把少样本提示带进视觉语言模型

Flamingo 将预训练视觉编码器和大语言模型连接起来，让图像、视频和文本任务可以通过少量示例完成。

图像分割 · Meta AI

Segment Anything：把图像分割做成可提示的基础能力

SAM 将图像分割重构为可提示任务，并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。

视觉基础模型 · Google Research

Vision Transformer：把图像切成 token

ViT 证明在足够大规模训练下，把图像切成 patch 后交给标准 Transformer，也能在图像识别中取得强表现。

多模态模型 · OpenAI

CLIP:让计算机视觉学会读自然语言

CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。

图像分割 · Meta AI

SAM 2:从图像分割走向视频分割

SAM 2 把可提示分割从静态图像扩展到实时视频,核心是流式记忆和围绕用户交互构建的数据引擎。

自监督学习 · Meta AI

DINOv2：不用标签学习通用视觉特征

DINOv2 通过大规模自监督训练和数据清洗，得到可迁移到多类视觉任务的稳健特征。

多模态模型 · Google DeepMind

Flamingo：把少样本提示带进视觉语言模型

Flamingo 将预训练视觉编码器和大语言模型连接起来，让图像、视频和文本任务可以通过少量示例完成。

图像分割 · Meta AI

Segment Anything：把图像分割做成可提示的基础能力

SAM 将图像分割重构为可提示任务，并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。

视觉基础模型 · Google Research

Vision Transformer：把图像切成 token

ViT 证明在足够大规模训练下，把图像切成 patch 后交给标准 Transformer，也能在图像识别中取得强表现。

多模态模型 · OpenAI

CLIP:让计算机视觉学会读自然语言

CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。

图像分割 · Meta AI

SAM 2:从图像分割走向视频分割

SAM 2 把可提示分割从静态图像扩展到实时视频,核心是流式记忆和围绕用户交互构建的数据引擎。