Vision Transformer：把图像切成 token

一句话

ViT 证明在足够大规模训练下，把图像切成 patch 后交给标准 Transformer，也能在图像识别中取得强表现。

解决什么问题

长期以来，计算机视觉主要依赖卷积神经网络。ViT 问了一个直接的问题：语言领域成功的 Transformer，能否在不以卷积为核心归纳偏置的情况下处理图像？

ViT 将图像切成固定大小的 patch，把每个 patch 线性映射成 token 表示，加入位置信息后输入标准 Transformer 编码器。最终分类方式类似 NLP 中的序列分类，把图像识别问题转成 token 序列建模问题。

在大规模图像数据上预训练后，ViT 在下游识别基准上表现很强。论文同时说明了关键条件：数据不够时，缺少卷积先验会吃亏；但当训练规模足够大，Transformer 架构可以非常有竞争力。

ViT 打开了视觉基础模型的道路。图像一旦能被表示为 token 序列，语言模型中的很多方法就更容易迁移到视觉：规模化预训练、掩码预测、多模态对齐以及统一架构设计。

原始 ViT 对大规模预训练依赖很强，小数据场景不如 CNN 省样本。简单 patch 切分也可能损失局部细节，因此后续模型常加入层级结构、更强增强策略或混合式设计。

一句话：ViT 让图像进入了 Transformer 的 token 世界。