4.2.1 端到端策略学习 (End-to-End Policy Learning)

文档摘要

4.2.1 端到端策略学习 (End-to-End Policy Learning) 4.2.1 端到端策略学习（End-to-End Policy Learning）：别让梯度在观测预处理层“断崖式蒸发”——一个被低估却致命的归一化陷阱与实时修复方案你有没有试过这样的情形？模型在仿真里跑得行云流水，A/B测试时 reward 曲线光滑如镜，loss 下降坚定如钟表发条；可一旦部署到真实机械臂上，前3秒还能稳住末端位姿，第4秒突然像喝醉一样甩腕、撞限位、触发急停——日志里没报错，传感器数据全在合理范围内，PID回退控制器一接管就立刻正常。