主题

语言模型

用于大规模理解、生成和转换自然语言的模型。

研究工作站上的代码与语言模型轨迹

语言模型是现代 AI 基础设施的中心，因为它把文本变成了推理、检索、代码、智能体和多模态系统的通用接口。真正重要的研究线索不是某一个模型家族，而是一系列让规模变得有效的设计选择：双向预训练、decoder-only 少样本学习、指令跟随、算力最优训练和开放模型发布。

从 SEO 和学习路径看，这个主题应该被理解为能力迁移图谱。BERT 让预训练 encoder 成为 NLP 标准底座。GPT-3 让上下文学习变得可见。InstructGPT 说明人类偏好数据为什么重要。Chinchilla 修正了大家对数据和算力配比的直觉。Llama 类开放模型则把语言模型变成可部署生态，而不只是闭源前沿竞赛。

从这里开始

语言模型 · Google Research

BERT:重塑 NLP 的双向预训练配方

BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。

语言模型 · Google DeepMind

Chinchilla：算力最优训练给大模型上的一课

Chinchilla 证明许多大语言模型不是参数太少，而是训练 token 不够；同样算力下，参数与数据的配比更关键。

语言模型 · OpenAI

GPT-3:少样本提示成为交互界面的时刻

GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。

奠基论文

语言模型 · Google Research

BERT:重塑 NLP 的双向预训练配方

BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。

语言模型 · Google Research

T5:把所有 NLP 任务都变成文本到文本

T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。

语言模型 · OpenAI

GPT-3:少样本提示成为交互界面的时刻

GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。

对齐 · OpenAI

InstructGPT:为什么更大的模型仍需要人类反馈

InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。

近期解读

代码生成 · Google DeepMind

AlphaCode：用编程竞赛检验代码生成能力

AlphaCode 通过生成大量候选程序、过滤并选择多样化解法，挑战需要算法推理和隐藏测试的编程竞赛题。

语言模型 · Google Research

BERT:重塑 NLP 的双向预训练配方

BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。

语言模型 · Google DeepMind

Chinchilla：算力最优训练给大模型上的一课

Chinchilla 证明许多大语言模型不是参数太少，而是训练 token 不够；同样算力下，参数与数据的配比更关键。

代码生成 · Meta AI

Code Llama：面向代码的开放基础模型

Code Llama 在 Llama 系列基础上继续训练代码能力，支持代码生成、补全、填空和指令跟随。

语言模型 · OpenAI

GPT-3:少样本提示成为交互界面的时刻

GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。

对齐 · OpenAI

InstructGPT:为什么更大的模型仍需要人类反馈

InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。

代码生成 · Google DeepMind

AlphaCode：用编程竞赛检验代码生成能力

AlphaCode 通过生成大量候选程序、过滤并选择多样化解法，挑战需要算法推理和隐藏测试的编程竞赛题。

语言模型 · Google Research

BERT:重塑 NLP 的双向预训练配方

BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。

语言模型 · Google DeepMind

Chinchilla：算力最优训练给大模型上的一课

Chinchilla 证明许多大语言模型不是参数太少，而是训练 token 不够；同样算力下，参数与数据的配比更关键。

代码生成 · Meta AI

Code Llama：面向代码的开放基础模型

Code Llama 在 Llama 系列基础上继续训练代码能力，支持代码生成、补全、填空和指令跟随。

语言模型 · OpenAI

GPT-3:少样本提示成为交互界面的时刻

GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。

对齐 · OpenAI

InstructGPT:为什么更大的模型仍需要人类反馈

InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。

语言模型 · Google Research

PaLM:把 dense 语言模型扩展到 540B 参数

PaLM 用 Pathways 系统训练 540B dense Transformer,展示规模如何提升少样本语言、推理和代码能力。

语言模型 · Google Research

T5:把所有 NLP 任务都变成文本到文本

T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。