6.3.1 Wave intrinsics: ballot、shuffle


文档摘要

6.3.1 Wave intrinsics: ballot、shuffle 在GPU计算的深水区,有一片被称作“波操作”(Wave Operations)的隐秘海域——它不浮于CUDA流或OpenCL队列的表层,也不依赖显式同步屏障或原子内存事务;它悄然运行在硬件波前(wavefront)或线程束(warp)的物理边界之内,以纳秒级的时序精度,在32个(AMD GCN/RDNA)或32/64个(NVIDIA Volta+)同构线程之间完成无通信开销的集体决策与数据交换。这不是抽象的并行模型,而是硅基电路中真实发生的电子脉冲协奏:当一个warp中的所有线程执行 时,它们并未向L1缓存发起32次读请求,也未触发任何跨CU(Compute Unit)的总线仲裁;


发布者: 作者: 转发
评论区 (0)
U