4.3.2 GPU 缓存（Model Caching）与编译加速

文档摘要

4.3.2 GPU 缓存（Model Caching）与编译加速在深度学习推理的战场上，GPU早已不是那个单纯执行矩阵乘法的“大力士”——它正悄然蜕变为一个集缓存管理、指令调度、内存感知与编译智能于一体的异构计算中枢。而当我们把目光投向“4.3.2 GPU 缓存（Model Caching）与编译加速”这一节时，真正值得叩问的，并非“GPU有没有缓存”，而是：当一个175B参数的大语言模型被加载进显存，它的权重张量、激活缓存、KV Cache、编译后的PTX内核、甚至梯度历史片段，究竟以何种粒度、何种策略、何种时序，在L1/L2/Shared Memory/Texture Cache之间流动与驻留？