T5:把所有 NLP 任务都变成文本到文本

一句话

T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。

解决什么问题

NLP 迁移学习已经很强,但流程很碎。不同任务使用不同输出格式、训练目标、数据集和微调习惯。T5 提出一个统一问题:能不能把所有文本任务都简化成同一种形式,输入文本,输出文本。

T5 使用统一 text-to-text 框架。翻译、摘要、分类、问答等任务都表示成文本字符串。论文随后系统比较预训练目标、架构、无标注数据集、迁移方式和规模。它还引入 Colossal Clean Crawled Corpus,即经过清洗的网页预训练语料。

结合统一格式、谨慎选择的预训练策略、规模和 C4,T5 在覆盖摘要、问答、分类和语言理解的许多基准上达到 SOTA。论文还公开数据、模型和代码,使其成为 NLP 迁移学习的实用参考。

T5 让 NLP 工作流更干净。开发者不必为每个任务设计专门头和输出格式,而是把任务表达成文本转换。这个思路影响了后来的指令微调和 seq2seq 系统,其中任务格式和提示写法也成为模型设计的一部分。

text-to-text 统一很优雅,但也可能隐藏某些任务专有结构。C4 比原始网页数据更干净,但仍反映网页偏见和过滤选择。T5 的长期价值不在于一种格式永远最优,而在于统一接口让比较和扩展更容易。

一句话:T5 让 NLP 任务使用同一种接口说话。