7.3.2 Kubernetes (K8s) 环境下的 Ollama 编排 在 Kubernetes 的广袤疆域中,Ollama 从来不是一位“原住民”——它生来为开发者桌面而设计:轻量、单机、无状态、依赖宿主机的 GPU 驱动与 管理。当我们将它请上 K8s 这座由 etcd、kube-apiserver、CNI 和 CSI 共同铸就的分布式圣殿时,问题便如潮水般涌来:模型如何持久化?GPU 资源如何被 Pod 精确调度? 进程如何在容器重启后维持模型加载状态?镜像体积动辄数 GB,拉取慢、启动迟、更新难; 目录若挂载为 emptyDir,节点漂移即丢失全部模型;若用 PVC,则面临多副本读写冲突、NFS 性能瓶颈、以及模型文件元数据(如 、 )在分布式存储中不一致的风险。