5.4.1 共享内存并行 (Shared-Memory Parallelism)

文档摘要

5.4.1 共享内存并行 (Shared-Memory Parallelism) 共享内存并行，不是“多线程跑得快”的模糊印象，也不是“加个就能提速”的魔法咒语——它是现代CPU上最精密、最脆弱、也最具回报潜力的计算范式之一。当你在一台32核Xeon Platinum服务器上启动一个看似简单的矩阵乘法，却只看到4个核心持续满载、其余28个核心在空转或争抢缓存行；当你用发现L3 cache miss率高达37%，而IPC（每周期指令数）跌至0.8；当你反复调整OpenMP线程数，性能曲线却在16线程后陡然坍缩——这些不是偶然故障，而是共享内存模型在真实硬件上发出的尖锐警报：你正在与缓存一致性协议博弈，与伪共享搏斗，与NUMA拓扑对峙，与编译器优化边界角力。