6.2.1 FlashAttention / xFormers 集成


文档摘要

6.2.1 FlashAttention / xFormers 集成 在大模型训练与推理的工程实践中,注意力机制早已不是那个优雅却笨重的数学公式——它是一道横亘在吞吐量、显存带宽与计算效率之间的“高墙”。当你在 的源码里看到那行 ,你看到的不仅是一个矩阵乘法,更是一场显存风暴的导火索:一个 $B \times H \times L \times Dh$ 的查询张量与同样尺寸的键张量做点积,生成 $B \times H \times L \times L$ 的注意力权重矩阵。


发布者: 作者: 转发
评论区 (0)
U