4.2 核心数值算法并行化


文档摘要

4.2 核心数值算法并行化 第四章:并行算法设计与优化 4.2 核心数值算法并行化 你有没有在深夜调试一个看似“正确”的并行线性求解器,却眼睁睁看着 64 个 MPI 进程的加速比卡死在 3.2?有没有把 FFTW 的 模式开到极致,结果发现首次变换耗时 17 秒、而后续调用快如闪电——可偏偏你的应用每帧都要处理不同尺寸的信号?有没有在稀疏矩阵上跑完 500 次 CG 迭代,最后发现 80% 的时间花在了 的等待上,而不是矩阵-向量乘? 这些不是玄学,是数值算法并行化的“体感真相”。


发布者: 作者: 转发
评论区 (0)
U