RayPlacementGroup


文档摘要

Ray Placement Group 本节详细说明 slime 在 Ray 上如何进行 GPU 资源编排,包括: 如何创建并重排 Placement Group(PG)以实现稳定的 GPU排序 训练 Actor 与 Rollout Engine 如何在 PG 上调度 两种部署形态:colocate与 dis-agg High Level Concepts :在集群中预留一组 bundle(每个包含 1GPU+1CPU),并将后续 actor 固定绑定到这些 bundle 上,实现可控、稳定的资源放置。 :训练侧“同构 actor 组”的管理器。 按稳定顺序为每个 rank 创建训练 actor,并提供并发的 init/train/eval/save/update/offload 接口。


发布者: 作者: 转发
评论区 (0)
U