6.2 线程级并行架构 在物理引擎的演进长河中,性能从来不是一道单选题——它既不是单纯追求浮点吞吐的军备竞赛,也不是对缓存行对齐的偏执修行;它是一场关于时间、空间与因果秩序的精密协奏。当刚体碰撞检测的复杂度从 $O(n^2)$ 滑向 $O(n \log n)$,当约束求解器从雅可比迭代转向块对角预处理共轭梯度法,我们逐渐意识到:算法优化的边际收益正在收敛,而硬件演进的洪流却奔涌不息——现代桌面CPU已普遍搭载16核32线程,服务器级处理器突破128物理核心,GPU流式多处理器(SM)数量以千计。此时,若仍以单线程串行视角建模物理世界,无异于用算盘指挥交响乐团:再精准的节拍,也压不住失序的声部。