11.1.1 高维curse与更新瓶颈

文档摘要

11.1.1 高维curse与更新瓶颈 11.1.1 高维 curse 与更新瓶颈：一场在参数空间中跋涉的无声雪崩你有没有试过，在训练一个包含 128 维嵌入、64 层 Transformer 块、每层 16 个注意力头、总参数量达 13B 的模型时，突然发现——梯度更新变得像在冻土上凿井？学习率调到 $1 \times 10^{-5}$，loss 曲线却像被钉在墙上；… 会员。《11.1.1 高维curse与更新瓶颈》收录于灏天文库文集《VectorDB向量数据库通用技术》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号58935。

该文档为会员专享，请先登录或注册后再查看

登录注册