5.4.1 共享内存并行 (Shared-Memory Parallelism) 共享内存并行,不是“多线程跑得快”的模糊印象,也不是“加个 就能提速”的魔法咒语——它是现代CPU上最精密、最脆弱、也最具回报潜力的计算范式之一。当你在一台32核Xeon Platinum服务器上启动一个看似简单的矩阵乘法,却只看到4个核心持续满载、其余28个核心在空转或争抢缓存行;当你用 发现L3 cache miss率高达37%,而IPC(每周期指令数)跌至0.8;当你反复调整OpenMP线程数,性能曲线却在16线程后陡然坍缩——这些不是偶然故障,而是共享内存模型在真实硬件上发出的尖锐警报:你正在与缓存一致性协议博弈,与伪共享搏斗,与NUMA拓扑对峙,与编译器优化边界角力。