4.3 常用并行模式 第四章:并行算法设计与优化 4.3 常用并行模式:从纸面模型到GPU核函数的落地实践 你有没有在深夜调试一个看似“天然并行”的Stencil计算,却眼睁睁看着GPU利用率卡死在32%?有没有把一个递归分治算法直接丢进OpenMP 里,结果线程数翻倍、耗时却增长了1.8倍?又或者,写完一个前缀和(scan)内核后,发现跨block边界的数据不一致——不是结果错,而是错得很有规律:每32个元素就跳一次偏移? 这些不是玄学故障,而是并行模式从教科书走向真实硬件时必然撞上的三堵墙:内存访问模式的隐式约束、任务粒度与硬件执行单元的错配、以及规约类操作中同步原语的语义鸿沟。本节不谈“并行很美”,只谈“怎么让并行真正跑起来”。我们将以工程师手握CUDA 12.3、OpenMP 5.