主题

语言模型

用于大规模理解、生成和转换自然语言的模型。

研究工作站上的代码与语言模型轨迹

语言模型是现代 AI 基础设施的中心,因为它把文本变成了推理、检索、代码、智能体和多模态系统的通用接口。真正重要的研究线索不是某一个模型家族,而是一系列让规模变得有效的设计选择:双向预训练、decoder-only 少样本学习、指令跟随、算力最优训练和开放模型发布。

从 SEO 和学习路径看,这个主题应该被理解为能力迁移图谱。BERT 让预训练 encoder 成为 NLP 标准底座。GPT-3 让上下文学习变得可见。InstructGPT 说明人类偏好数据为什么重要。Chinchilla 修正了大家对数据和算力配比的直觉。Llama 类开放模型则把语言模型变成可部署生态,而不只是闭源前沿竞赛。

从这里开始

奠基论文

近期解读