多模态模型 · 视觉基础模型

CLIP:让计算机视觉学会读自然语言

CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。

一句话

CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。

解决什么问题

传统视觉分类器学习的是固定标签集合。任务一变,通常就需要新的标注样本和新的训练。CLIP 要解决这种脆弱性:它不再只预测预定义类别,而是直接学习哪段文字和哪张图片匹配,用自然语言本身作为监督信号。

核心方法

CLIP 训练两个编码器:一个处理图像,一个处理文本,目标是对比学习。给定一批图文对,模型把匹配的图像和文本拉近,把不匹配的组合推远。训练数据达到 4 亿图文对。推理时,用户可以用自然语言描述候选类别,模型判断哪段文字最适合这张图。

关键结果

CLIP 可以在 30 多个视觉数据集上零样本迁移,不需要针对任务单独训练。它在 ImageNet 零样本设置下达到原始 ResNet-50 的准确率,而没有使用 ImageNet 的 128 万标注训练样本。论文还展示了 OCR、视频动作识别、地理定位和细粒度分类等任务上的非平凡迁移。

为什么重要

CLIP 把语言变成了视觉系统的控制界面。这个思路后来成为文生图、图像检索、安全过滤、多模态智能体和可提示感知的关键基础。它也改变了大家对视觉数据集的理解:监督不一定非得是干净标签表,只要互联网文本足够大,也能形成强信号。

局限与存疑

CLIP 会继承网页数据里的偏见和噪声,零样本效果也高度依赖提示词写法。它更擅长识别关联,不等于真正理解物理因果。CLIP 的强来自广覆盖,但广覆盖也让失败模式比窄任务监督分类器更难预测。

一句话:CLIP 让视觉可以被语言查询。