2.2.2.2 布局转换 (Layout Transformation)：NCHW 与 NH...

文档摘要

2.2.2.2 布局转换 (Layout Transformation)：NCHW 与 NHWC 的自动切换你有没有在深夜调试一个模型时，眼睁睁看着 GPU 利用率卡死在 32%，而显存却只用了 47%？有没有在把 PyTorch 模型迁移到 TensorFlow Serving 时，发现推理延迟突然翻了三倍，显示占用带宽高达 98%，但 kernel 执行时间几乎为零？有没有在 ONNX 导出后，用跑出正确结果，却比 CPU 版本还慢——不是因为算力不足，而是因为每一层输出都在做一场无声的、昂贵的“搬家”？这不是玄学。这是布局（layout）在低语。