AlphaCode:用编程竞赛检验代码生成能力
AlphaCode 通过生成大量候选程序、过滤并选择多样化解法,挑战需要算法推理和隐藏测试的编程竞赛题。
最新
Research Papers 最新 AI 研究论文解读,覆盖具身智能、大模型与会成为热点的科学前沿。
AlphaCode 通过生成大量候选程序、过滤并选择多样化解法,挑战需要算法推理和隐藏测试的编程竞赛题。
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
Chinchilla 证明许多大语言模型不是参数太少,而是训练 token 不够;同样算力下,参数与数据的配比更关键。
Code Llama 在 Llama 系列基础上继续训练代码能力,支持代码生成、补全、填空和指令跟随。
DINOv2 通过大规模自监督训练和数据清洗,得到可迁移到多类视觉任务的稳健特征。
Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。
GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。
InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。
Imagen 表明,更强的语言编码器能显著提升扩散文生图模型的提示对齐和照片级真实感。
PaLM 用 Pathways 系统训练 540B dense Transformer,展示规模如何提升少样本语言、推理和代码能力。
SAM 将图像分割重构为可提示任务,并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。
T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
Whisper 表明,大规模、多样化、弱监督音频数据可以训练出更稳健的多语言识别和翻译模型。
AlphaFold 3 用基于扩散的架构,把蛋白结构预测扩展到蛋白、核酸、小分子、离子和修饰残基组成的复合体建模。
Transformer 去掉循环和卷积,用注意力机制与并行训练处理序列任务;几乎所有现代大模型都站在这一步之上。
AlphaGeometry 把神经语言模型和符号演绎结合起来,用合成定理与证明训练,在奥赛几何上接近金牌水平。
DALL·E 2 把文生图拆成两步:先由文本预测 CLIP 图像嵌入,再由解码器把这个嵌入生成图像。
CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。
Direct Preference Optimization 把偏好微调变成类似分类的简单目标,避免显式奖励模型和强化学习循环。
Gemini 1.5 让百万 token 多模态上下文不再只是炫技,而是能处理长文档、视频、音频和代码库的真实交互方式。
FlashAttention 保持注意力计算精确,但让算法具备 IO awareness,通过 tiling 减少慢速 GPU 内存访问,让长序列 Transformer 更快、更省显存。
GPT-4 技术报告公开的不是完整配方,而是一套衡量方式:多模态 Transformer、可预测扩展、后训练对齐和跨任务基准共同重塑了前沿 AI 预期。
Latent Diffusion 把去噪过程从像素空间搬到压缩后的自编码器潜空间,显著降低高分辨率图像生成成本,同时保留扩散模型的灵活性。
Llama 3 不只是更大的开放权重模型,而是把多语言、代码、推理、工具使用和安全模型打包成一个公开模型家族。
序列建模 · Carnegie Mellon University
Mamba 让状态空间模型具备选择性,可以根据输入决定记住或遗忘什么,同时保持随序列长度线性扩展。
视觉-语言-动作 · Physical Intelligence
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。
SAM 2 把可提示分割从静态图像扩展到实时视频,核心是流式记忆和围绕用户交互构建的数据引擎。
只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。