6.1.2.1 动态交易策略优化


文档摘要

6.1.2.1 动态交易策略优化 6.1.2.1 动态交易策略优化:当PPO遇上滑点——一个被低估却致命的梯度偏移问题与实时修正方案 你有没有在回测中看到一条漂亮的累计收益曲线,夏普比高达3.2,最大回撤仅4.7%,年化波动率压得比国债还稳;可一上线实盘,首周就亏掉两个半月的回测利润?不是过拟合,不是数据泄露,也不是市场突变——而是你在用PPO(Proximal Policy Optimization)训练动态交易策略时,悄悄把滑点建模为常数项,而真实世界里,滑点是状态依赖的、非线性的、带随机跳变的、且与动作幅值平方成正比的函数。更糟的是,你的策略网络在反向传播时,对这个函数的梯度完全失敏——它以为自己在优化“理论最优执行”,实际却在优化“理想化幻觉”。 这不是假设。


发布者: 作者: 转发
评论区 (0)
U