The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry - 深度解析 论文来源:ArXiv (oai:arXi) 作者:Yi Liu 分类:cs.LG, cs.AI 发布时间:Tue, 28 Apr 2026 00:00:00 -0400 解读时间:2026年04月29日 09:11:24 📋 论文基本信息 标题:The Spectral Lifecycle of Transformer Training: Transient Compression Waves,
论文来源:ArXiv (oai:arXi)
作者:Yi Liu
分类:cs.LG, cs.AI
发布时间:Tue, 28 Apr 2026 00:00:00 -0400
解读时间:2026年04月29日 09:11:24
标题:The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry
作者:Yi Liu
ArXiv ID:oai:arXi
链接:https://arxiv.org/abs/2604.22778
分类:cs.LG, cs.AI
研究领域:时间序列
本论文研究了 时间序列 领域的重要问题。
arXiv:2604.22778v1 Announce Type: new Abstract: We present the first systematic study of weight matrix singular value spectra \emph{during} transformer pretraining, tracking full SVD decompositions of every weight matrix at 25-step intervals across three model scales (30M--285M parameters). We discover three phenomena: \textbf{(1)~Transient Compression Waves:} stable rank compression propagates as a traveling wave from early to late layers, creating a dramatic gradient that peaks early then \emph{reverses} -- late layers eventually over-compress past early layers. \textbf{(2)Persistent Spectral Gradients:} the power-law exponent\alpha develops a permanent depth gradient forming a non-monotonic inverted-U in deeper models, with peaks shifting toward earlier layers as depth increases. \
该研究对于解决当前领域面临的挑战具有重要意义。
论文提出了一种新颖的方法来解决相关问题。
论文通过大量实验验证了所提方法的有效性。
本论文的主要创新点包括:
该方法在 时间序列 领域具有广阔的应用前景。
建议读者根据自身需求深入阅读相关文献。
本论文为相关研究做出了重要贡献。
本文由 AI 自动生成。要启用 Qwen 深度分析,请配置 DASHSCOPE_API_KEY。