主题

Transformer

以注意力机制为核心、成为现代语言和多模态模型骨架的架构。

长上下文 · MiniMax AI

MiniMax Sparse Attention:百万上下文稀疏注意力

MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。

图像分割 · Meta AI

Mask2Former:统一三类图像分割任务

Mask2Former 用 masked attention 统一语义、实例和全景分割,COCO panoptic 达 57.8 PQ,ADE20K 达 57.7 mIoU。

语言模型 · Xiaohongshu

NITP:预测下一个 token 的语义,而非只是它的 ID

NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。

语言模型 · Google Research

BERT 解读:双向 Transformer 预训练如何重塑 NLP

BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。

语言模型 · Google DeepMind

Chinchilla：算力最优的模型为何能打赢更大的模型

Chinchilla 证明参数量与训练 token 应等比例增长：700 亿参数、约 1.4 万亿 token，打赢 Gopher 280B 和 GPT-3 175B。

高效 AI · Shanghai Jiao Tong University

Domino:把投机解码的草稿与因果修正拆开

Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。

长上下文 · Tencent

FlashMemory-DeepSeek-V4:KV 缓存压到 13.5%

用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。

高效 AI · Alibaba Qwen Team

全注意力反击:RTPurbo 几百步把大模型转成稀疏注意力

RTPurbo 用两阶段各约 600 步,把训练好的全注意力大模型转成稀疏注意力,LongBench 54.24 反超 53.80,1M 上下文预填充提速 9.36 倍。

语言模型 · OpenAI

GPT-3 解读:提示词成为编程界面的时刻

GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。

扩散模型 · Independent Researcher

Mean Mode Screaming:稳住千层扩散 Transformer

极深 DiT 会塌缩进作者称为 Mean Mode Screaming 的均值主导态。把残差拆成均值与去均值两条路径即可修复,训出稳定的 1000 层 DiT,FID 2.77。

语言模型 · Google Research

PaLM:用 Pathways 训练 540B dense 语言模型

540B dense Transformer,在 6144 块 TPU v4 上用 Pathways 跨两个 Pod 训练,少样本刷新纪录,BIG-bench 超过人类平均。

扩散模型 · Alibaba Qwen Team

重新审视扩散 Transformer 的跨层信息路由

DAR 用随时间步自适应的子层输出聚合替换扩散 Transformer 的残差相加:SiT-XL/2 的 ImageNet FID 从 9.67 降到 7.56,迭代量仅基线 1/8.75。

语言模型 · Google Research

T5 解读:用一套文本到文本接口统一所有 NLP 任务

T5 把所有 NLP 任务都写成「文本进、文本出」,并系统横扫目标、架构、数据与规模;110 亿参数版在 GLUE、SuperGLUE、SQuAD 上刷出当时 SOTA。

文本嵌入 · Renmin University of China

EmbFilter:把大模型的解嵌入矩阵当成特征透镜

EmbFilter 把解嵌入矩阵当透镜,剥掉文本嵌入里被高频废词占据的子空间,在不微调的前提下提升零样本检索并降维。

视觉基础模型 · Google Research

Vision Transformer (ViT)：一张图等于 16x16 个词

ViT 把图像切成 16x16 patch 直接喂给标准 Transformer，在 JFT-300M 上预训练后超过顶尖 CNN，ImageNet 达 88.55%，且训练算力更省。

Transformer · Google Research

Attention Is All You Need:Transformer 架构详解

2017 年的 Transformer 抛弃循环与卷积,只用注意力,WMT14 英德 28.4 BLEU、英法 41.8 BLEU,8 卡训练 3.5 天。如今几乎所有大模型都继承它。

高效 AI · Stanford University

FlashAttention 详解:IO 感知精确注意力,提速 2-4 倍

FlashAttention 是精确注意力算法,用分块和重计算压缩 GPU 内存搬运:GPT-2 提速 3 倍、BERT-large 提速 15%,显存随序列长度线性增长。