1.1 核心概念与基本定义


文档摘要

1.1 核心概念与基本定义 第一章:HPC 与并行计算基础理论 1.1 核心概念与基本定义 你有没有试过在笔记本上跑一个 1024×1024 矩阵乘法,用纯 Python 的三重嵌套 循环?——大概要等 37 秒。换成 NumPy 的 ,不到 5 毫秒。再换成一台搭载 4 颗 AMD EPYC 9654(共 384 核)、配 2TB DDR5 内存、通过 AMD Infinity Fabric 互连、挂载 8 块 MI300X 加速卡的超算节点,用 HIP + ROCm 实现的分块 GEMM 内核,在双精度下实测持续吞吐达 128 TFLOPS —— 它一秒钟完成的浮点运算,相当于你那台笔记本连续算 260 万年。


发布者: 作者: 转发
评论区 (0)
U