2.1 整体架构设计 在大语言模型推理系统演进的宏大图景中,vLLM早已超越一个“优化库”的定位——它是一套重新定义高吞吐、低延迟、强扩展性推理服务边界的工程范式。当我们站在“2.1 整体架构设计”这一承上启下的关键节点回望,前序章节所勾勒的“系统目标:吞吐翻倍、显存压缩、调度智能、部署轻量”,绝非一组孤立的性能指标;它们是架构设计的第一性约束,是每一行代码、每一个线程、每一次GPU kernel launch背后无声却不可妥协的律令。而本章,正是要揭开这层律令如何被具象为可推演、可验证、可演化的结构骨架——不是罗列模块,而是解剖其拓扑逻辑;不堆砌术语,而是厘清其因果链条;不满足于“它是什么”,而执着追问:“它为何必须如此?