Flash Attention 学习随笔 由于工作原因要系统性学习 FA3 的算子库,于是从 FA 第一代开始,系统性学习整个 Flash Attention 的发展。 Self-Attention 反向传播梯度推导 梯度定义与迹的关系 设标量损失函数为 $L$。对于矩阵 $\mathbf{X}$,梯度 $\mathbf{G}X$ 在深度学习圈子往往被习惯记作 $dX$,这非常容易与微分算子产生混淆。首先证明梯度与迹的关系: 设 $L$ 是一个标量函数,其自变量是一个 $m \times n$ 的矩阵 $\mathbf{X}$。