首页
>
资源中心
>
vLLM Serving Engine
返回资源中心
正在加载资源详情...
加载失败,请稍后重试
vLLM Serving Engine
框架库
机器学习
0
次浏览
0
个赞
LLM
Inference
GPU
访问链接
点赞
资源描述
高吞吐量、低延迟的 LLM 推理和服务库,采用 PagedAttention 技术,能显著提升 GPU 利用率和并发处理能力。
详细内容
A high-throughput and memory-efficient inference and serving engine for LLMs.
相关资源
LangGraph Agent Framework
LangGraph
CrewAI Agent Framework
LangSmith Agent Tracing
PyTorch Framework
LangGraph Multi-Agent Framework