5.4.1.2 策略梯度与值函数

文档摘要

5.4.1.2 策略梯度与值函数 5.4.1.2 策略梯度与值函数：当Actor-Critic在CartPole上突然“失忆”——一个被低估的熵崩溃故障与带温度调节的策略熵正则化实战方案你有没有遇到过这样的场景？模型在CartPole-v1上训练到平均回合长度198步，眼看着就要稳稳突破200（即完美收敛），却在第327个episode后，骤然崩塌：回合长度从195跳崖式跌至12、7、3……最终卡死在“一推就倒”的状态。会员。《5.4.1.2 策略梯度与值函数》收录于灏天文库文集《随机过程》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号56645。

该文档为会员专享，请先登录或注册后再查看

登录注册