5.2.3 Stable Diffusion 推理加速与 U-Net 优化 5.2.3 Stable Diffusion 推理加速与 U-Net 优化:一线工程师的实战手记 你有没有在深夜调试一个 1.5B 参数的 U-Net 模型时,盯着 的输出发呆? 有没有在客户演示前五分钟,发现一张 512×512 图像的单步去噪要耗时 820ms,而目标是 ≤120ms? 有没有把 加进去后,模型反而慢了 37%,GPU 利用率跌到 23%? 这不是玄学——这是 Stable Diffusion 推理加速的真实战场。它不靠“加显卡”或“换 A100”解决,而是一场对计算图、内存布局、张量粒度、硬件特性的毫米级拆解与重铸。