5.1 主机-设备数据传输(cudaMemcpy、统一内存UM、零拷贝内存) 第五章:内存管理与优化 5.1 主机-设备数据传输(cudaMemcpy、统一内存UM、零拷贝内存) 在GPU加速计算的宏大图景中,数据流动是贯穿始终的生命线。主机(Host)与设备(Device)之间的数据传输,如同人体的血液循环系统——高效则生机盎然,阻塞则百病丛生。尽管现代GPU的计算能力已跃升至每秒数十万亿次浮点运算(TFLOPS),但若数据无法及时送达或返回,再强大的算力也终将沦为“无米之炊”。正因如此,理解并优化主机-设备间的数据传输机制,成为CUDA编程中不可绕行的核心课题。