8.3.2 针对稀疏性(Sparsity)的硬件级加速应用 在深度学习模型规模持续膨胀的今天,我们正站在一个微妙而危险的临界点上:一块A100显卡上运行的LLaMA-3-70B推理任务,其激活张量中超过62%的元素为零;ResNet-50在ImageNet验证集上某一层卷积输出的稀疏度(zero ratio)峰值可达89.3%;而更令人警醒的是——这些零值并非噪声,而是结构化、可预测、可压缩、可跳过的计算冗余。它们像城市交通中的空载出租车,在GPU的SM单元间徒劳穿梭,在HBM带宽中无声消耗,在缓存行里挤占本该属于有效数据的位置。稀疏性不再是需要被“容忍”的副产品,它已成为必须被硬件级主动识别、调度与跳过的第一等公民。 这正是“8.3.