深入浅出理解verl源码part2


文档摘要

深入浅出理解 verl 源码 part 2 在 Part 1 中,我们介绍了 verl 的初始化过程,我们进一步介绍 verl 的训练过程。 在 GRPO 中,单个 step 包含四个阶段:load data -> rollout -> make experience -> update model。区别于前一节的详述,本节会使用伪代码结合源码的方式进行阐述。 数据加载与预处理 verl 通过 和 来实现数据处理。具体来说,在 中,我们观察这个函数: createrldataset 源码 非常典型,创造一个了 实例,并返回。而具体的 实现如下: RLHFDataset 实现 支持从远程存储下载 Parquet 文件到本地缓存,支持共享内存加速文件访问,自动管理文件路径,支持检查点恢复。


发布者: 作者: 转发
评论区 (0)
U