首页
>
资源中心
>
vLLM High-Throughput Serving
返回资源中心
正在加载资源详情...
加载失败,请稍后重试
vLLM High-Throughput Serving
框架库
机器学习
3
次浏览
0
个赞
Inference
Deployment
GPU
访问链接
点赞
资源描述
极速大模型推理库,采用 PagedAttention 技术,能显著提高 LLM 在生产环境中的吞吐量。
详细内容
A high-throughput and memory-efficient serving engine for LLMs.
相关资源
Dify LLM App Development Platform
LangGraph Agent Framework
LangGraph
CrewAI Agent Framework
LangSmith Agent Tracing
PyTorch Framework