3.2.2.2 稳态可塑性与突触缩放 (Synaptic Scaling) 3.2.2.2 稳态可塑性与突触缩放(Synaptic Scaling):当网络“失重”时,我们如何用一行梯度裁剪守住稳态的锚点? 你有没有调试过这样一个模型——它在训练初期收敛飞快,损失曲线像滑雪运动员俯冲下坡;可到了第127个epoch,突然开始发飘:测试准确率在58.3%和61.9%之间来回震荡,像被风吹歪的风铃;激活值直方图里,92%的神经元输出集中在$[0.001, 0.003]$区间,而权重矩阵的Frobenius范数却悄然膨胀了3.7倍;更诡异的是,当你把学习率从$1\times10^{-3}$降到$5\times10^{-5}$,模型反而彻底哑火,连随机猜测都不如。