1.2.1.2 现代架构中的混合模型 (如 SIMT)


文档摘要

1.2.1.2 现代架构中的混合模型 (如 SIMT) 当 warp 遇见 divergent branch:一个 CUDA SIMT 架构下隐性性能悬崖的实战解剖 你写完 kernel,编译通过, 显示 occupancy 98%,SM 利用率峰值 82%,你满意地点点头——直到把输入规模从 $10^6$ 拉到 $10^7$,端到端耗时却突然暴涨 3.7 倍,且 GPU 利用率断崖式跌至 12%。 没有报错,没有 OOM,没有 kernel launch failure。 只有沉默的、低效的、仿佛在原地踏步的 warps。 这不是玄学。


发布者: 作者: 转发
评论区 (0)
U