FlashAttention学习随笔

文档摘要

Flash Attention 学习随笔由于工作原因要系统性学习 FA3 的算子库，于是从 FA 第一代开始，系统性学习整个 Flash Attention 的发展。 Self-Attention 反向传播梯度推导梯度定义与迹的关系设标量损失函数为 $L$。对于矩阵 $\mathbf{X}$，梯度 $\mathbf{G}X$ 在深度学习圈子往往被习惯记作 $dX$，这非常容易与微分算子产生混淆。首先证明梯度与迹的关系：设 $L$ 是一个标量函数，其自变量是一个 $m \times n$ 的矩阵 $\mathbf{X}$。