5.1.1 Tensor Parallel 与 Pipeline Parallel

文档摘要

5.1.1 Tensor Parallel 与 Pipeline Parallel 在单节点多 GPU 的训练场景中，模型规模的膨胀早已突破单卡显存的物理天花板。当一个 70B 参数的大语言模型以精度加载时，仅参数就需约 140GB 显存——而即便是当前最强的单卡 H100（80GB SXM5）也远不能承载。此时，“把大模型切开”不再是一种权衡，而是一条必经的技术窄门。会员。《5.1.1 Tensor Parallel 与 Pipeline Parallel》收录于灏天文库文集《vLLM》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号59189。

该文档为会员专享，请先登录或注册后再查看

登录注册