1.2 并行计算的理论模型 在高性能计算的广袤疆域里,理论模型从来不是悬于空中的楼阁,而是工程师调试 MPI 进程拓扑时敲下的 命令;是 OpenMP 线程在 NUMA 节点上争抢最后一级缓存带宽时触发的 输出;更是你在深夜重构矩阵乘法分块策略时,反复验证的那条 $ Tp = \frac{T1}{p} + \alpha(p-1) + \beta \cdot \frac{n^2}{p} $ ——它不只是一行公式,而是你手头那台 64 核双路 EPYC 服务器上实际测得的 3.82× 加速比与理论上限 5.97× 之间那道 2.15× 的沉默鸿沟。 我们今天要谈的,并非教科书里被框在虚线边框里的“并行计算理论模型”,而是一套可编译、可测量、可调优、可失效复现的技术骨架。