4.3.1 模板计算 (Stencil Computation) 4.3.1 模板计算(Stencil Computation):边界条件不是“补零”那么简单——一次GPU内存带宽撕裂事故的复盘与重构 你有没有在深夜调试一个看似简单的5点Jacobi迭代时,发现: ——核函数逻辑干净利落, 里连 都写得滴水不漏; ——输入数据从CPU memcpy 到 GPU 显存耗时稳定在28μs,毫无异常; ——但 kernel launch 后, 测出的实际执行时间却像心电图一样剧烈抖动:有时1.7ms,有时4.3ms,峰值甚至飙到9.2ms——而理论计算吞吐量明明该稳在3.1ms左右? 这不是随机噪声。这是模板计算在真实硬件上裸泳时,被边界条件撕开的第一道口子。