3.3.1 NVIDIA CUDA 架构与编程


文档摘要

3.3.1 NVIDIA CUDA 架构与编程 3.3.1 NVIDIA CUDA 架构与编程:共享内存 bank conflict —— 那个让 80% 的矩阵转置慢了 3.7 倍的“幽灵瓶颈” 你写好了 kernel, 显示 occupancy 是 100%,SM 利用率曲线像心电图一样平稳跳动;你核对过线程索引计算, ,没错;你甚至把 放在了最该放的位置……可当 的方阵转置从 CPU 的 12.4ms 降到 GPU 的 3.1ms 后,再往上推到 ,性能却突然塌陷——不是线性增长,而是陡峭下坠:4.8ms → 11.2ms → 23.9ms。你盯着 里那条纹丝不动的 GPU-Util(始终卡在 38%),心里浮起一个冰冷的念头:不是没算,是算得太多、太乱,乱到硬件在替你擦屁股。


发布者: 作者: 转发
评论区 (0)
U