1.4.2.1 连续性与可微性 1.4.2.1 连续性与可微性:当梯度爆炸不是bug,而是路径上的一道裂痕 凌晨两点十七分,GPU显存占用率98.3%,训练曲线在第127轮突然塌陷——loss从$2.1\times10^{-2}$跳变至$+\infty$, 报错: 。这不是模型过深、学习率过高、初始化失当的惯常嫌疑;这是样本路径本身,在连续性边界上悄然撕开了一道不可微的口子。 你删掉 重跑?没用。 你换AdamW为LAMB?无效。 你加梯度裁剪、权重衰减、EMA?全无回响。 因为问题不在优化器,不在正则化,甚至不在网络结构——它藏在样本路径的几何本质里:那个被你当作“光滑输入流”喂入模型的张量,其支撑集(support set)上,早已埋下不连续映射的伏笔;