番外:从理论到代码——CocDo 神经因果算子 理论告诉你因果推断是什么。代码告诉你它是怎么做成的。 上卷13章讲完了理论:因果边界、注意力机制、搜索艺术、推理极限。现在的问题是:这些理论如何变成可运行的代码? 这看起来是个工程问题,但它在第一行代码之前就有一个根本障碍:数学结构和计算结构之间的翻译会丢失什么? 线性注意力是个绝佳的例子。它的代数核心是 Monoid(幺半群)——前缀和结合律允许 $O(\log T)$ 并行扫描,轻松甩掉 $O(T^2)$ 的复杂度诅咒。这是数学结构直接给出计算红利。 但 Monoid 没有逆元。一旦 $kt \otimes vt$ 被加进状态矩阵 $S$,它就和其他所有历史贡献永久混叠,无法单独取出。