1.4.2.1 连续性与可微性

文档摘要

1.4.2.1 连续性与可微性 1.4.2.1 连续性与可微性：当梯度爆炸不是bug，而是路径上的一道裂痕凌晨两点十七分，GPU显存占用率98.3%，训练曲线在第127轮突然塌陷——loss从$2.1\times10^{-2}$跳变至$+\infty$，报错：。这不是模型过深、学习率过高、初始化失当的惯常嫌疑；这是样本路径本身，在连续性边界上悄然撕开了一道不可微的口子。你删掉重跑？没用。你换AdamW为LAMB？无效。会员。《1.4.2.1 连续性与可微性》收录于灏天文库文集《随机过程》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号56548。

该文档为会员专享，请先登录或注册后再查看

登录注册