Flash Attention
Flash Attention通过分块计算和内存重排,将注意力计算的内存复杂度从O(n2)降低到O(n),显著提升长序列处理效率。分块计算:Tiling策略;内存优化:减少HBM访问;实现细节:CUDA kernel;版本演进:Flash Attention 1/2/3;集成应用:主流框架支持。
学习资源(8 个)
📎
Flash Attention Paper
Flash Attention原始论文
高级
📎
百度千帆 - 高效注意力实现
百度千帆高效注意力
进阶
📎
腾讯云 - GPU内存优化
腾讯云内存优化
进阶
📎
飞桨Paddle - Flash Attention
飞桨Flash Attention
进阶
📎
Flash Attention 2 Paper
Flash Attention 2论文
高级
📎
Flash Attention 3 Paper
Flash Attention 3论文
高级
📎
PyTorch - SDPA Documentation
PyTorch SDPA
进阶
📎
Tri Dao - Flash Attention Research
作者个人主页
入门