3.2.2.2 支持模型列表(Llama、Mistral 等) 当 Llama 3-70B 在 Ollama 上“拒绝响应”,而 Mistral-7B 却秒回——不是模型在罢工,是 tokenizer 的隐式编码契约被悄悄撕毁了 你刚把 打进终端,光标安静得像冻住了一样。 你 Ctrl+C,换 ,回车,立刻吐出 —— 流畅得像呼吸。 你再试一次 ,加 ,看到日志里反复刷着: 然后——静默。整整 87 秒后,它才吐出第一个 token。 你查 GPU 显存: 显示显存已占满,但 却报告 。 这不是卡顿。这是语义阻塞——模型在等一个它坚信该存在、却从未被正确注入的控制符号。 这不是配置错误,也不是硬件瓶颈。