导航菜单

切换主题

Flash Attention

Flash Attention通过分块计算和内存重排，将注意力计算的内存复杂度从O(n2)降低到O(n)，显著提升长序列处理效率。分块计算：Tiling策略；内存优化：减少HBM访问；实现细节：CUDA kernel；版本演进：Flash Attention 1/2/3；集成应用：主流框架支持。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(8 个)

Flash Attention Paper

Flash Attention原始论文

百度千帆 - 高效注意力实现

百度千帆高效注意力

腾讯云 - GPU内存优化

腾讯云内存优化

飞桨Paddle - Flash Attention

飞桨Flash Attention

Flash Attention 2 Paper

Flash Attention 2论文

Flash Attention 3 Paper

Flash Attention 3论文

PyTorch - SDPA Documentation

PyTorch SDPA

Tri Dao - Flash Attention Research

作者个人主页