5.2.2 资源占用监控(Ollama ps 与系统工具) 在大模型本地化部署的实战现场,我们常会遭遇这样一幕:刚启动一个 $7B$ 参数量的 Llama 3 模型, 命令看似顺利返回了交互式 shell;可当用户输入第一句“请简述量子退火原理”后,终端却陷入长达 8 秒的沉默——CPU 利用率飙至 98%,GPU 显存占用稳定在 5.2 GiB,而 却显示 ;与此同时, 中 进程的 内存悄然攀升至 4.7 GiB, 区开始高频换入换出……这不是模型推理慢,而是资源调度失焦的典型症候:进程在“跑”,但算力没“动”;内存在“涨”,但显存没“用”;服务在“活”,但响应在“死”。 这正是我们今天要剖开的切口——5.2.2 资源占用监控(Ollama ps 与系统工具)。