FlashAttention:从 GPU 内存读写里挤出的注意力加速
FlashAttention 保持注意力计算精确,但让算法具备 IO awareness,通过 tiling 减少慢速 GPU 内存访问,让长序列 Transformer 更快、更省显存。
主题
降低大模型内存、算力或延迟成本的算法与系统。
FlashAttention 保持注意力计算精确,但让算法具备 IO awareness,通过 tiling 减少慢速 GPU 内存访问,让长序列 Transformer 更快、更省显存。
序列建模 · Carnegie Mellon University
Mamba 让状态空间模型具备选择性,可以根据输入决定记住或遗忘什么,同时保持随序列长度线性扩展。