4.1.2.1 动态 LoRA 加载/卸载

文档摘要

4.1.2.1 动态 LoRA 加载/卸载 4.1.2.1 动态 LoRA 加载/卸载：当推理服务在毫秒级切换专家模型时，谁在悄悄吃掉你的显存？你有没有经历过这样的深夜调试现场—— 模型服务刚上线，单卡部署了 3 个 LoRA 适配器（分别对应客服、金融、医疗三个垂类），一切正常；可当第 4 个 LoRA（法律咨询）热加载进来后，突然炸开，显示显存占用从 18.2 GiB 跳到 24.1 GiB，而却只报告了 19. 会员。《4.1.2.1 动态 LoRA 加载/卸载》收录于灏天文库文集《vLLM》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号59178。

该文档为会员专享，请先登录或注册后再查看

登录注册