8.1.1 算力开销(Arithmetic Operations)的评估 在深度学习模型部署与算法优化的实战前线,我们常常被一个问题反复叩问:这个模型到底要吃掉多少算力? 不是模糊的“挺快”或“有点慢”,而是精确到每一个加法、每一次乘法、每一层卷积中浮点运算的原子级计数;不是笼统的“GPU显存够不够”,而是清楚知道——当输入一张 $224 \times 224$ 的 RGB 图像,ResNet-50 在前向传播中究竟执行了多少次 $\text{FLOPs}$(Floating Point Operations),其中又有多少是真正不可省略的 有效算力,多少是被零值激活、冗余分支或未剪枝通道悄悄吞没的 幻影开销。 这正是 8.1.