3.2.1.2 多线程调度策略 (Eigen vs. OpenMP) 当 Eigen 的线程数“失联”于 OpenMP 环境:一个在 ONNX Runtime CPU 后端中被低估却高频发生的调度静默失效问题 你有没有遇到过这样的场景? 模型推理耗时稳定在 82ms,CPU 利用率却始终卡在 120%(四核八线程机器上); 你明明设置了 、 、 ,甚至在代码里反复 ——输出永远是 ; 可 perf record 一跑, 和 的热点全挤在单个 LWP 上, 打点显示所有 GEMM 调用都钉死在 CPU 0; 更诡异的是:把同一份模型换到 PyTorch(同样用 MKL+OpenMP), 瞬间铺满 16 个逻辑核,耗时直降 3.