9.4 分布式 如今, 像 Llama-3.1-405b 这样的大语言模型显然装在一块 GPU 内,而是通过张量并行实现了分布式推理,大幅降低了训练/推理的延迟。 我们在第八章介绍过,张量并行是一种常见的模型并行技术,它将模型的权重张量切分到多个设备上,使得每个设备只负责计算一部分张量的操作。这样做可以使模型在多个 GPU 上同时计算,加快处理速度。 Ray-Serve 在传统的生产环境中,部署机器学习模型往往需要构建复杂的基础设施。这通常涉及使用消息队列(如 Redis 或 RabbitMQ)来处理数据流,结合 Celery 等工作线程框架来调度任务。这些系统被精心拼接在一起,以应对负载均衡、工作进程管理以及应用程序各部分之间的通信等关键任务。