7.1.2 GPU 加速:CUDA 核心与离轴计算 (Offloading) GPU加速不是把代码扔给显卡就完事的魔法——它是一场精密的协同作战:CPU是运筹帷幄的指挥官,GPU则是千军万马的突击纵队;而CUDA核心,正是这支纵队中真正扣动扳机、执行计算的每一个战士。离轴计算(Offloading)更非简单的“任务外包”,而是对数据生命线、内存拓扑、执行时序与同步语义的全栈式重构。当我们说“用CUDA加速”,我们真正要回答的,不是“能不能跑”,而是:“数据如何呼吸?线程如何布阵?访存如何调度?错误如何溯源?性能瓶颈究竟藏在哪一级缓存之下?