4.2.1 数值线性代数 (BLAS, LAPACK, ScaLAPACK) 4.2.1 数值线性代数(BLAS, LAPACK, ScaLAPACK):当 在双路AMD EPYC上跑出不到30%峰值算力——一个被忽略的缓存行对齐陷阱与 的 绑核真相 你有没有遇到过这样的场景? 深夜两点,集群作业又卡在了 的第17次迭代; 显示 占用92% CPU时间,但 高得反常; 里明明80个逻辑核全绿, 报告每个NUMA节点有32核,可 却显示——96% 的内存分配发生在Node 0,Node 1 几乎空转; 你重编译了ScaLAPACK,换掉了Intel MKL,切到OpenBLAS 0.3.21,加了 ,甚至手动绑核 ……结果一跑 ,性能反而跌了18%。 这不是玄学。