视觉基础模型 · Transformer

Vision Transformer:把图像切成 token

ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。

视觉感知硬件与电路细节
一句话

ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。

解决什么问题

长期以来,计算机视觉主要依赖卷积神经网络。ViT 问了一个直接的问题:语言领域成功的 Transformer,能否在不以卷积为核心归纳偏置的情况下处理图像?

核心方法

ViT 将图像切成固定大小的 patch,把每个 patch 线性映射成 token 表示,加入位置信息后输入标准 Transformer 编码器。最终分类方式类似 NLP 中的序列分类,把图像识别问题转成 token 序列建模问题。

关键结果

在大规模图像数据上预训练后,ViT 在下游识别基准上表现很强。论文同时说明了关键条件:数据不够时,缺少卷积先验会吃亏;但当训练规模足够大,Transformer 架构可以非常有竞争力。

为什么重要

ViT 打开了视觉基础模型的道路。图像一旦能被表示为 token 序列,语言模型中的很多方法就更容易迁移到视觉:规模化预训练、掩码预测、多模态对齐以及统一架构设计。

局限与存疑

原始 ViT 对大规模预训练依赖很强,小数据场景不如 CNN 省样本。简单 patch 切分也可能损失局部细节,因此后续模型常加入层级结构、更强增强策略或混合式设计。

一句话:ViT 让图像进入了 Transformer 的 token 世界。