第四节：探索前沿模型——LLM、SLM及设备端推理

文档摘要

第四节：探索前沿模型——LLM、SLM及设备端推理摘要比较大型语言模型（LLM）与小型语言模型（SLM）在本地与云端推理场景中的表现。学习利用ONNX Runtime加速、WebGPU执行以及混合RAG体验的部署模式。包括一个使用本地模型的Chainlit RAG演示以及可选的OpenWebUI探索。您将调整一个WebGPU推理入门项目，并评估Phi与GPT-OSS-20B的能力及成本/性能权衡。