主题

高效 AI

降低大模型内存、算力或延迟成本的算法与系统。

高效 AI · Stanford University

FlashAttention:从 GPU 内存读写里挤出的注意力加速

FlashAttention 保持注意力计算精确,但让算法具备 IO awareness,通过 tiling 减少慢速 GPU 内存访问,让长序列 Transformer 更快、更省显存。

序列建模 · Carnegie Mellon University

Mamba:认真挑战注意力机制的长序列架构

Mamba 让状态空间模型具备选择性,可以根据输入决定记住或遗忘什么,同时保持随序列长度线性扩展。