返回资源中心

vLLM High-Throughput Serving

框架库

机器学习

3 次浏览

0 个赞

InferenceDeploymentGPU

访问链接

资源描述

极速大模型推理库，采用 PagedAttention 技术，能显著提高 LLM 在生产环境中的吞吐量。

详细内容

A high-throughput and memory-efficient serving engine for LLMs.