第四节:探索前沿模型——LLM、SLM及设备端推理 摘要 比较大型语言模型(LLM)与小型语言模型(SLM)在本地与云端推理场景中的表现。学习利用ONNX Runtime加速、WebGPU执行以及混合RAG体验的部署模式。包括一个使用本地模型的Chainlit RAG演示以及可选的OpenWebUI探索。您将调整一个WebGPU推理入门项目,并评估Phi与GPT-OSS-20B的能力及成本/性能权衡。