4.2.1 DirectCompute 架构

文档摘要

4.2.1 DirectCompute 架构 DirectCompute 架构：当GPU不再只是画图的“美工刀”，而成为你代码里可调度、可调试、可预测的通用计算引擎你有没有试过，在一个 16GB 显存的 RTX 4090 上，只用 OpenGL 或传统渲染管线跑一个简单的矩阵乘法——结果发现，明明硬件峰值算力超过 80 TFLOPS（FP16），实际吞吐却卡在 30 GB/s 的纹理带宽瓶颈上？又或者，你写好了 HLSL 计算着色器，调用后，GPU 利用率曲线像心电图一样起伏不定，NVIDIA Nsight Graphics 里显示仅维持在 32%？