Research Papers
面向 AI 与科学前沿的重要论文,提供原创结构化解读。
最新
BERT:重塑 NLP 的双向预训练配方
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
Chinchilla:算力最优训练给大模型上的一课
Chinchilla 证明许多大语言模型不是参数太少,而是训练 token 不够;同样算力下,参数与数据的配比更关键。
Code Llama:面向代码的开放基础模型
Code Llama 在 Llama 系列基础上继续训练代码能力,支持代码生成、补全、填空和指令跟随。
DINOv2:不用标签学习通用视觉特征
DINOv2 通过大规模自监督训练和数据清洗,得到可迁移到多类视觉任务的稳健特征。
Flamingo:把少样本提示带进视觉语言模型
Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。
GPT-3:少样本提示成为交互界面的时刻
GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。
InstructGPT:为什么更大的模型仍需要人类反馈
InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。
Imagen:文生图质量不只取决于图像模型
Imagen 表明,更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。
PaLM:把 dense 语言模型扩展到 540B 参数
PaLM 用 Pathways 系统训练 540B dense Transformer,展示规模如何提升少样本语言、推理和代码能力。
Segment Anything:把图像分割做成可提示的基础能力
SAM 将图像分割重构为可提示任务,并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。
T5:把所有 NLP 任务都变成文本到文本
T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。
Vision Transformer:把图像切成 token
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
Whisper:用大规模弱监督训练稳健语音识别
Whisper 表明,大规模、多样化、弱监督音频数据可以训练出更稳健的多语言识别和翻译模型。
AlphaFold 3:从蛋白折叠走向生物分子相互作用
AlphaFold 3 用基于扩散的架构,把蛋白结构预测扩展到蛋白、核酸、小分子、离子和修饰残基组成的复合体建模。
Attention Is All You Need:现代 AI 的底层架构
Transformer 去掉循环和卷积,用注意力机制与并行训练处理序列任务;几乎所有现代大模型都站在这一步之上。
AlphaGeometry:不用人类证明示例,解奥赛几何
AlphaGeometry 把神经语言模型和符号演绎结合起来,用合成定理与证明训练,在奥赛几何上接近金牌水平。
DALL·E 2:通过 CLIP 潜变量生成图像
DALL·E 2 把文生图拆成两步:先由文本预测 CLIP 图像嵌入,再由解码器把这个嵌入生成图像。
CLIP:让计算机视觉学会读自然语言
CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。
DPO:去掉强化学习循环的对齐技巧
Direct Preference Optimization 把偏好微调变成类似分类的简单目标,避免显式奖励模型和强化学习循环。
Gemini 1.5:长上下文从演示能力变成产品能力
Gemini 1.5 让百万 token 多模态上下文不再只是炫技,而是能处理长文档、视频、音频和代码库的真实交互方式。
FlashAttention:从 GPU 内存读写里挤出的注意力加速
FlashAttention 保持注意力计算精确,但让算法具备 IO awareness,通过 tiling 减少慢速 GPU 内存访问,让长序列 Transformer 更快、更省显存。
GPT-4:让前沿模型变得可评测的技术报告
GPT-4 技术报告公开的不是完整配方,而是一套衡量方式:多模态 Transformer、可预测扩展、后训练对齐和跨任务基准共同重塑了前沿 AI 预期。
Latent Diffusion:实用高分辨率图像生成的底层论文
Latent Diffusion 把去噪过程从像素空间搬到压缩后的自编码器潜空间,显著降低高分辨率图像生成成本,同时保留扩散模型的灵活性。
Llama 3:Meta 把开放权重做成完整模型系统
Llama 3 不只是更大的开放权重模型,而是把多语言、代码、推理、工具使用和安全模型打包成一个公开模型家族。
序列建模 · Carnegie Mellon University
Mamba:认真挑战注意力机制的长序列架构
Mamba 让状态空间模型具备选择性,可以根据输入决定记住或遗忘什么,同时保持随序列长度线性扩展。
视觉-语言-动作 · Physical Intelligence
π0:一个会叠衣服、能开七种机器人的模型
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
RT-2:让网页知识开始驱动机器人
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。
SAM 2:从图像分割走向视频分割
SAM 2 把可提示分割从静态图像扩展到实时视频,核心是流式记忆和围绕用户交互构建的数据引擎。
DeepSeek-R1:几乎不用人工标注,教模型学会推理
仅靠强化学习、不喂任何监督推理过程,就能让基座模型长出强大的逐步推理能力,比肩顶尖闭源模型。