3.3.1 针对特定 GPU 架构(Compute Capability)的内核选择 在深度学习训练与高性能计算的战场上,GPU早已不是一块“通用加速卡”——它是一台由成千上万个流式多处理器(SM)构成的、具有精密微架构时序约束的并行引擎。而CUDA内核,就是我们向这台引擎注入指令的唯一语言。但问题来了:同一段 代码,在A100(Compute Capability 8.0)上能跑出92%的TFLOPS利用率,在RTX 4090(CC 8.9)上却卡在73%,在H100(CC 9.0)上甚至因寄存器溢出而编译失败——这不是编译器的bug,而是我们默认放弃了对硬件本质的尊重。