6.2 线程级并行架构

文档摘要

6.2 线程级并行架构在物理引擎的演进长河中，性能从来不是一道单选题——它既不是单纯追求浮点吞吐的军备竞赛，也不是对缓存行对齐的偏执修行；它是一场关于时间、空间与因果秩序的精密协奏。当刚体碰撞检测的复杂度从 $O(n^2)$ 滑向 $O(n \log n)$，当约束求解器从雅可比迭代转向块对角预处理共轭梯度法，我们逐渐意识到：算法优化的边际收益正在收敛，而硬件演进的洪流却奔涌不息——现代桌面CPU已普遍搭载16核32线程，服务器级处理器突破128物理核心，GPU流式多处理器（SM）数量以千计。此时，若仍以单线程串行视角建模物理世界，无异于用算盘指挥交响乐团：再精准的节拍，也压不住失序的声部。