8.3.2 领域特定加速器 (NPU/TPU) 的 IR 设计 在芯片设计与编译器协同演进的深水区,当通用计算的摩尔红利渐趋枯竭,我们不再追问“能不能算”,而是直击灵魂三问:算得够不够专?调度够不够密?数据流够不够贴? 这正是领域特定加速器(DSA)——NPU、TPU、AI Core——崛起的根本动因。而在这场硬件革命的底层,真正承上启下、穿针引线的,不是RTL,不是驱动,甚至不是运行时库,而是那一套被精心雕琢的中间表示(IR)。它不声不响,却决定着模型能否真正“长”进硅片的脉络里;它不露锋芒,却左右着80%以上的端到端能效瓶颈。 今天,我们就钻进IR设计的毛细血管,以一线工程师拆解真实NPU编译栈的视角,聚焦 8.3.