dev-log


文档摘要

Dev-log sppo 相比 Verl 自己实现的 ppo,主要区别是不使用 critic ,以及要修改 loss (传入 rewards)。 plan: 由于ray的monkey patch逻辑可能和单机版不太一样,第一版先侵入式修改了 ppo 的 actor 来验证算法正确性,看 valscore 涨的情况,如果loss实现正确,再考虑 monkey patch 或者自己实现 worker, actor (如果无法实现 monkey patch )。


发布者: 作者: 转发
评论区 (0)
U