3.3.2 矩阵乘法(GEMM)与卷积算法的参数搜索


文档摘要

3.3.2 矩阵乘法(GEMM)与卷积算法的参数搜索 在深度学习编译器与高性能计算的交汇处,有一片既沉默又喧嚣的土地——那里没有显眼的API,却决定着模型推理的毫秒生死;那里不暴露于用户界面,却悄然吞吐着TB级的内存带宽;那里没有浮点运算的炫目光芒,却以最朴素的循环嵌套、最精微的寄存器分配、最固执的缓存对齐,在硅基世界里刻下性能的终极刻度。这片土地,就是GEMM(General Matrix Multiplication)与卷积算子的内核自动调优(Kernel Auto-tuning)。而本节聚焦的,正是其中最硬核、最不可绕行的一环:3.3.2 矩阵乘法(GEMM)与卷积算法的参数搜索。 你或许已经用过 、 或 ,也见过“启用自动调优”那行轻描淡写的配置;


发布者: 作者: 转发
评论区 (0)
U