8.2.2 深度学习加速器架构 (DPU)


文档摘要

8.2.2 深度学习加速器架构 (DPU) 8.2.2 深度学习加速器架构 (DPU) 在数据中心算力基础设施的演进图谱中,通用 CPU 早已无法独自承载指数级增长的 AI 模型推理与训练需求,即便是高度并行的 GPU,在面对特定深度学习负载时也存在能效比与延迟上的优化空间。因此,专为深度学习 workload 定制的处理器架构应运而生。在本章节中,我们探讨的深度学习加速器架构(DPU,此处指 Deep Learning Processing Unit,即 dedicated DL 处理器),其核心设计哲学在于通过硬件级的特异性设计,最大化矩阵乘法与卷积运算的吞吐量,同时最小化数据搬运带来的能耗开销。


发布者: 作者: 转发
评论区 (0)
U