4.3.2.3 Transformer 模型


文档摘要

4.3.2.3 Transformer 模型 4.3.2.3 Transformer 模型:位置编码不是装饰品——当正弦位置嵌入在长序列上集体失忆时,我们如何用旋转位置编码(RoPE)让模型重拾时空感? 你有没有遇到过这样的场景: 训练一个用于金融时序异常检测的Transformer模型,输入是1024个连续分钟级K线数据; 验证集上F1-score尚可,但一旦把滑动窗口拉到2048步,模型对“第1987步出现的巨量阴线”和“第53步出现的同等形态阴线”的判别能力骤降37%; 更诡异的是,当你把原始序列倒序输入——逻辑上应完全对称的任务——模型准确率从86.2%跌到61.4%。 这不是过拟合。 不是学习率没调好。 也不是梯度爆炸。 是位置编码,在沉默中背叛了你。


发布者: 作者: 转发
评论区 (0)
U