4.2.1 端到端策略学习 (End-to-End Policy Learning) 4.2.1 端到端策略学习(End-to-End Policy Learning):别让梯度在观测预处理层“断崖式蒸发”——一个被低估却致命的归一化陷阱与实时修复方案 你有没有试过这样的情形? 模型在仿真里跑得行云流水,A/B测试时 reward 曲线光滑如镜,loss 下降坚定如钟表发条;可一旦部署到真实机械臂上,前3秒还能稳住末端位姿,第4秒突然像喝醉一样甩腕、撞限位、触发急停——日志里没报错,传感器数据全在合理范围内,PID回退控制器一接管就立刻正常。