4.1.2.1 动态 LoRA 加载/卸载 4.1.2.1 动态 LoRA 加载/卸载:当推理服务在毫秒级切换专家模型时,谁在悄悄吃掉你的显存? 你有没有经历过这样的深夜调试现场—— 模型服务刚上线,单卡部署了 3 个 LoRA 适配器(分别对应客服、金融、医疗三个垂类),一切正常; 可当第 4 个 LoRA(法律咨询)热加载进来后, 突然炸开, 显示显存占用从 18.2 GiB 跳到 24.1 GiB,而 却只报告了 19.7 GiB。 更诡异的是: 显示所有 LoRA 权重文件都已 进内存,但 却暴增了 137 行——其中 89 行指向同一块 的私有匿名映射区。 这不是玄学。