3.2.2.1 CUDA EP:基于 cuDNN 与 cuBLAS 的实现


文档摘要

3.2.2.1 CUDA EP:基于 cuDNN 与 cuBLAS 的实现 当 cuDNN 的卷积算子在 CUDA EP 中“静默降级”:一个让模型吞吐暴跌 63% 的隐性陷阱与精准修复方案 你有没有遇到过这样的场景? 模型在 ONNX Runtime 的 CUDA 执行提供者(CUDA EP)上跑着, 显示 GPU 利用率稳定在 82%,显存占用正常,TensorRT 不报错、cuBLAS 没警告、 也无越界——但推理吞吐量却比预期低了近三分之二?日志里没有 ,没有 ,甚至 下也只有一行轻描淡写的: ——而就在三分钟前,同一模型、同一输入 shape、同一 ONNX 文件,在另一台配置几乎相同的机器上,吞吐是它的 2.7 倍。 这不是玄学。


发布者: 作者: 转发
评论区 (0)
U