低精度浮点运算触发深度神经网络训练中的弹弓式损失尖峰


文档摘要

Grokking or Glitching? How Low-Precision Drives Slingshot Loss Spikes ——一项关于有限精度训练中数值失稳机制的深度运筹学与计算优化解读 📋 论文基本信息 标题:Grokking or Glitching? How Low-Precision Drives Slingshot Loss Spikes 作者:Liu Hanqing, Jianjun Cao, Yuanze Li, Zijian Zhou ArXiv ID:arXiv:2605.06152(注:ID格式符合arXiv 2026年编号规范;发布日期为2026-05-07,属前瞻性研究) 学科分类:cs.LG(机器学习)、cs.CL(计算语言学)、math.


发布者: 作者: 转发
评论区 (0)
U