返回资源中心

vLLM Serving Engine

框架库
机器学习
0 次浏览
0 个赞
LLMInferenceGPU

资源描述

高吞吐量、低延迟的 LLM 推理和服务库,采用 PagedAttention 技术,能显著提升 GPU 利用率和并发处理能力。

详细内容

A high-throughput and memory-efficient inference and serving engine for LLMs.