Flash Attention

Flash Attention通过分块计算和内存重排，将注意力计算的内存复杂度从O(n2)降低到O(n)，显著提升长序列处理效率。分块计算：Tiling策略；内存优化：减少HBM访问；实现细节：CUDA kernel；版本演进：Flash Attention 1/2/3；集成应用：主流框架支持。