3.2.4 Web 加速:ONNX Runtime Web (WebAssembly & W...


文档摘要

3.2.4 Web 加速:ONNX Runtime Web (WebAssembly & WebGPU) 在浏览器里跑一个 10 亿参数的视觉大模型——不是演示,不是降级版,不是“差不多能用”,而是真正在用户设备上完成端到端推理,延迟低于 80ms,显存占用可控,且不依赖任何插件、不触发浏览器警告、不弹出“此网站正尝试访问您的 GPU”提示——这听起来像 Web 前端的科幻小说?不。这是 2024 年底 ONNX Runtime Web(ORT-WEB)通过 WebGPU 后端已稳定交付的生产级能力。 我们不再满足于“能在浏览器跑模型”这种初级叙事。


发布者: 作者: 转发
评论区 (0)
U