7.3.2 Kubernetes (K8s) 环境下的 Ollama 编排

文档摘要

7.3.2 Kubernetes (K8s) 环境下的 Ollama 编排在 Kubernetes 的广袤疆域中，Ollama 从来不是一位“原住民”——它生来为开发者桌面而设计：轻量、单机、无状态、依赖宿主机的 GPU 驱动与管理。当我们将它请上 K8s 这座由 etcd、kube-apiserver、CNI 和 CSI 共同铸就的分布式圣殿时，问题便如潮水般涌来：模型如何持久化？GPU 资源如何被 Pod 精确调度？进程如何在容器重启后维持模型加载状态？镜像体积动辄数 GB，拉取慢、启动迟、更新难；目录若挂载为 emptyDir，节点漂移即丢失全部模型；若用 PVC，则面临多副本读写冲突、NFS 性能瓶颈、以及模型文件元数据（如、）在分布式存储中不一致的风险。