vLLM: 使用PagedAttention轻松、快速且廉价地提供LLM服务(中文翻译) 写在最前面 在学习vLLM和PagedAttention的过程中,我发现了很多非常优质的资料。其中最有价值应该是这篇vLLM的官方博客:https://blog.vllm.ai/2023/06/20/vllm.html 文章内容详实,我认为它写得非常好,因此尝试将其翻译成中文,希望这能帮助到更多需要相关信息的人。 由于译者水平有限,翻译过程中难免会有错误,还请大家多多包涵。如果有任何问题,欢迎在评论区指出,我会尽快修改。 正文开始: LLM 有望从根本上改变我们在所有行业中使用 AI 的方式。然而,真正的要为模型搭建服务是很有挑战性的,即使在昂贵的硬件上也可能出奇地慢。