3.2 消息传递编程模型 (分布式内存) 第三章:并行编程模型与语言 3.2 消息传递编程模型(分布式内存) 你有没有试过,在一台拥有64个CPU核心的服务器上跑一个看似“天然并行”的科学计算程序,却只看到不到15%的CPU利用率? 你有没有在集群上提交了MPI作业, 启动后三分钟内进程全部挂起, 显示它们全卡在 系统调用里,而 却悄然跳出了每秒27次重传? 你有没有认真读过 的手册页,却在调试一个多级嵌套通信域时,发现子通信子集的 返回值与你手算的拓扑编号完全对不上——不是差1,而是错位了整整一个维度? 这些不是玄学故障,而是消息传递模型在真实硬件、真实网络、真实负载下裸露出来的肌理与脉络。