BERT:重塑 NLP 的双向预训练配方
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
机构
Google 的研究组织,在机器学习、系统、语言与视觉方向有大量基础工作。
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
Imagen 表明,更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。
PaLM 用 Pathways 系统训练 540B dense Transformer,展示规模如何提升少样本语言、推理和代码能力。
T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
Transformer 去掉循环和卷积,用注意力机制与并行训练处理序列任务;几乎所有现代大模型都站在这一步之上。