3.4.1 分区全局地址空间 (PGAS) 语言 (UPC++, Chapel) 当 Chapel 的 遇上非均匀内存访问:一个被忽略的“假并行”陷阱与三步修复法 你写好了 Chapel 程序, 套得严丝合缝, 划分得整整齐齐, 里全是计算密集型 kernel——运行时 , 全亮起,监控显示每个 locale 的 CPU 利用率都冲到 92%。你按下回车,满怀期待地等待加速比突破 50×……结果呢?实测吞吐仅比单 locale 快 3.7 倍, 一跑, 占所有指令周期的 41%, 中高达 68% 落在远程 NUMA 节点上。 这不是性能调优失败。