11.1.1 高维curse与更新瓶颈


文档摘要

11.1.1 高维curse与更新瓶颈 11.1.1 高维 curse 与更新瓶颈:一场在参数空间中跋涉的无声雪崩 你有没有试过,在训练一个包含 128 维嵌入、64 层 Transformer 块、每层 16 个注意力头、总参数量达 13B 的模型时,突然发现——梯度更新变得像在冻土上凿井?学习率调到 $1 \times 10^{-5}$,loss 曲线却像被钉在墙上;batch size 加到 2048,GPU 显存利用率冲到 98%,但有效梯度更新步数反而下降;更诡异的是,当你把 embedding 维度从 128 降到 64,哪怕模型容量减半,验证集 F1 却不降反升——这并非玄学,而是高维 curse 在你模型的权重空间里,悄然埋下的第一颗雷。


发布者: 作者: 转发
评论区 (0)
U