返回资源中心

vLLM High-Throughput Serving

框架库
机器学习
3 次浏览
0 个赞
InferenceDeploymentGPU

资源描述

极速大模型推理库,采用 PagedAttention 技术,能显著提高 LLM 在生产环境中的吞吐量。

详细内容

A high-throughput and memory-efficient serving engine for LLMs.