第17章：概率作为逻辑的扩张——真值从 {0,1} 到 [0,1]

文档摘要

第17章：概率作为逻辑的扩张——真值从 {0,1} 到 [0,1] 概率不是频率。它是理性信念在不确定性下的唯一相容表示。第16章结尾留下了一个悬念：线性逻辑的语义暗示"真值"不再是一个简单的 $\{0,1\}$，而是某种更丰富的结构。但那个方向——相位语义、相干空间——是一条技术上艰难的路，留给研究者。有一条更宽阔的路。如果"真值"不是非真即假，而是一个介于 0 和 1 之间的实数，会发生什么？如果这个实数表示的是某个智能体对命题为真的相信程度，推断规则又应该长什么样子？这就是本章的问题。答案的名字叫贝叶斯概率论——但不是你可能学过的那个频率主义版本，而是它的逻辑基础版本：概率作为理性信念的表达，服从可以被演绎推导出来的法则。 17.

第17章：概率作为逻辑的扩张——真值从到 [0,1]

概率不是频率。它是理性信念在不确定性下的唯一相容表示。

第16章结尾留下了一个悬念：线性逻辑的语义暗示"真值"不再是一个简单的 \{0,1\}，而是某种更丰富的结构。但那个方向——相位语义、相干空间——是一条技术上艰难的路，留给研究者。

有一条更宽阔的路。

如果"真值"不是非真即假，而是一个介于 0 和 1 之间的实数，会发生什么？如果这个实数表示的是某个智能体对命题为真的相信程度，推断规则又应该长什么样子？

这就是本章的问题。答案的名字叫贝叶斯概率论——但不是你可能学过的那个频率主义版本，而是它的逻辑基础版本：概率作为理性信念的表达，服从可以被演绎推导出来的法则。

17.0 信念筹码游戏：在不确定性里保持自洽

现在我们把真值从黑白棋子换成筹码。

桌上有若干命题：H_1, H_2, \ldots, H_k。你手里有一百枚信念筹码，必须把它们分配到这些命题上。某个命题拿到的筹码越多，表示你越相信它。游戏的要求不是“永远押中”，而是更基本：你的下注不能自相矛盾。

然后证据来了。你看见 E。规则要求你重新分配筹码：支持 E 的假设获得更多筹码，难以解释 E 的假设失去筹码。这个移动不是随便挪，而必须服从贝叶斯更新：

P(H \mid E) = \frac{P(E \mid H)P(H)}{P(E)}

你可以把贝叶斯公式看作赌场里的防作弊规则：如果你不按这个方式更新，一个足够聪明的庄家就能设计一组赌局，让你无论世界怎样都亏钱。这就是 Dutch book 的直觉。

:::details 这个游戏的形式化骨架

状态空间：概率分布 p_t \in \Delta^{k-1}，即所有信念筹码的合法分配。
合法动作：观察证据 E_t 后，把先验 p_t 更新为后验 p_{t+1}。
转移规则：p_{t+1}(H) \propto P(E_t \mid H)p_t(H)。
胜利条件：信念分布既吸收证据，又保持概率公理的一致性。
失败模式：筹码分配违反概率规则，导致内部矛盾，或者被 Dutch book 稳定收割。
:::

这个游戏的关键不是“概率能保证你正确”。概率没有这么大的本事。它只保证一件更谦逊、也更必要的事：在证据不完整时，你的信念更新不互相打架。

形式逻辑处理的是确定世界里的合法推出；概率逻辑处理的是不确定世界里的合法更新。前者问“这个结论能不能推出”，后者问“看到这个证据后，我应该把信念挪到哪里”。

::: info 兔狲教授评
概率不是给胆小鬼准备的模糊逻辑。概率是理性在信息不足时还能站稳的姿势。你不知道答案，所以你分配筹码；证据来了，所以你移动筹码。真正不理性的不是不确定，而是假装自己在不确定中仍然拥有确定性。
:::

17.1 两种概率的争论

"概率 \frac{1}{2}"是什么意思？

频率主义的回答：抛这枚硬币无数次，正面出现的比例趋近于 \frac{1}{2}。概率是长程频率，只对可重复实验有意义。

贝叶斯主义的回答：我认为这枚硬币下一次落地为正面的可能性是 \frac{1}{2}。概率是信念的度量，对单次事件同样有意义。

这个争论持续了一个世纪，至今没有完全结束。但有一个问题，频率主义无法回答，而贝叶斯主义可以：

"明天下雨的概率是多少？"

明天只会发生一次。没有无限次重复。你无法等待无穷多个"明天"来测量频率。然而天气预报说 70% 的降雨概率，这个 70% 是有意义的——它描述的是预报员基于现有气象数据对"明天下雨"这个命题的信念强度。

贝叶斯概率论的核心主张是：概率是信念的逻辑，不是频率的统计。而且，一个理性智能体的信念必须服从概率公理——不是因为自然规律如此，而是因为违反概率公理的信念是不自洽的，会在推断中产生矛盾。

17.2 Cox 定理：公理的必然性

理查德·考克斯（Richard Cox）1946 年问了一个问题：如果你要用实数表达信念强度，使得这套表达方式是内部一致的，那么这些实数必须满足什么约束？

他的出发点是三条要求，每一条都是理性信念的最低标准：

要求一（有序性）：信念是可比较的。对于任意两个命题 A 和 B，你对 A 的相信程度要么高于、等于、或低于对 B 的相信程度。

要求二（一致性）：对复合命题的信念，完全由对组成命题的信念决定。你对"A 且 B"的相信程度，是 A 的信念度和"已知 A 成立时对 B 的信念度"的某个函数。

要求三（对偶性）：对 A 的相信程度和对 \neg A 的相信程度，是互补的——完全确信 A 意味着完全不信 \neg A。

Cox 证明了：在这三条要求下，任何内部一致的信念度量，必然在某个单调变换的意义下等价于标准概率。也就是说，你可以选择不同的标度（用 [0,100] 而不是 [0,1]），但推断规则的结构完全确定：

P(A \land B) = P(A) \cdot P(B \mid A)

P(A) + P(\neg A) = 1

这不是实验发现的规律，而是理性自洽的必然结果。如果你用数字表达信念，而且你的信念是内部一致的，你就在用概率——你只是可能还没意识到这一点。

::: info 兔狲教授评
Cox 定理的结论让很多人误以为"贝叶斯是唯一理性的"。慢着——定理的前提是信念可以被实数线性序表示。如果你质疑这个前提，整个定理不适用。定理的力量来自前提，先把前提想清楚，再讨论结论的必然性。别把条件件的结论当成无条件的真理。
:::

::: info Cox 定理的哲学意涵

Cox 定理的深刻之处在于它的"唯一性"：满足理性要求的信念度量，在结构上是唯一的。这意味着概率论不是人类发明的一套工具——它是理性信念的必然形式。如果你拒绝概率论，你要么拒绝对信念进行比较（放弃有序性），要么接受信念间的内部矛盾。

这和第14章的精神完全一致：形式系统的公理不是任意约定，而是为了避免矛盾而必须接受的最低限度。Cox 定理把同样的逻辑应用于信念：为了避免不自洽，信念必须服从概率公理。
:::

17.3 贝叶斯更新：推断规则的概率版本

有了概率作为信念度量，"推断"变成了什么？

在形式逻辑里，推断是从已知真命题产生新的真命题。在概率论里，推断是从已知观测更新对命题的信念度。

这个更新的规则，是概率论最重要的定理：

P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)}

用中文说清楚这四个量：

P(H)：在看到证据 E 之前，对假设 H 的相信程度——先验概率。
P(E \mid H)：假设 H 成立时，看到证据 E 的概率——似然。
P(E)：在所有可能情况下，看到证据 E 的概率——边际概率，归一化因子。
P(H \mid E)：看到证据 E 之后，对假设 H 的新信念度——后验概率。

:::details 先验 / 似然 / 后验：三角关系图解
这三个词是贝叶斯推断的核心，初次接触经常混淆：

先验（Prior）P(H)：你在看任何数据之前就有的信念。例："我猜这枚硬币是公平的，正面概率 50%。"来源是领域知识、历史数据、或无信息假设。

似然（Likelihood）P(E \mid H)：如果假设 H 是真的，观测到当前证据 E 的概率。注意方向——不是"看到 E 后 H 多可能"，而是"假设 H 真，E 出现的概率"。例："如果硬币公平，连续 3 次正面的概率是 1/8。"

后验（Posterior）P(H \mid E)：看到证据之后，更新过的信念。这才是你真正想要的答案。

边际概率 P(E)：归一化常数，保证后验概率加起来等于 1。实际计算时常用 \text{后验} \propto \text{似然} \times \text{先验}，忽略这个常数。

记忆公式：新信念 ∝ 旧信念 × 证据的支持力度
:::

这就是贝叶斯定理，或者更准确地说，贝叶斯推断的核心操作。

但写成公式容易让人错过它的逻辑本质。更清楚的写法是：

\text{后验} \propto \text{似然} \times \text{先验}

（\propto 表示正比于，P(E) 是常数归一化因子，不改变相对比例。）

这个式子说的是：看到证据之后的信念，是看到证据之前的信念经过证据加权之后的结果。证据通过似然函数作用于先验，把先验"推"到后验。

回到信念筹码游戏，贝叶斯公式不是一条外加的“统计技巧”，而是筹码移动的合法性规则。你当然可以凭感觉把筹码从一个假设挪到另一个假设；但只要你不按似然和先验的比例移动，就会留下可被 Dutch book 利用的套利缝隙。概率论的冷酷就在这里：它不保证你押中，只保证你别在自己的下注规则里自相矛盾。

::: info 推断规则的结构类比

把贝叶斯更新和第14章的推断规则对比，相似处令人吃惊：

形式逻辑：\frac{P \to Q \quad P}{Q}（假言推理，消耗 P 和 P \to Q，得到 Q）
贝叶斯：P(H \mid E) \propto P(E \mid H) \cdot P(H)（消耗似然 P(E \mid H) 和先验 P(H)，得到后验 P(H \mid E)）

两者都是"用已有的东西推出新的东西"，差别在于：形式逻辑的"已有的东西"是 \{0,1\} 值的真命题，贝叶斯的"已有的东西"是 [0,1] 值的信念度。贝叶斯推断是把假言推理扩张到连续真值域上的版本。
:::

17.4 先验：推断从不从零开始

贝叶斯推断有一个让很多人不舒服的地方：你需要一个先验。

先验是你在看到任何证据之前就已经持有的信念。这从哪里来？如果我完全不知道，先验是什么？

频率主义者认为这个要求是贝叶斯方法的致命弱点——先验是主观的，不同的人可以有不同的先验，得到不同的后验，谁说谁对？

贝叶斯主义者的回答分两层。

第一层：先验不是任意的。理性先验受到各种约束。最基本的约束是对称性：如果你对某种情况一无所知，你没有任何理由让先验偏向任何一侧。这给出了"无信息先验"——在没有任何偏好信息时，分配均匀先验（对离散情况）或最大熵先验（对连续情况）。

第二层：先验的影响随证据增多而消退。这是贝叶斯更新的一个数学定理：在足够多的独立观测之后，无论你从哪个先验出发，后验都会收敛到同一个位置。主观先验是暂时的，数据是客观的，理性智能体最终会达成共识。

用一个极端的例子说明。假设两个人争论某枚硬币是否均匀：一个人先验认为正面概率是 0.99，另一个人认为是 0.01。他们同时观察这枚硬币被抛 1000 次，其中 503 次正面。贝叶斯更新之后，两个人的后验都会集中在 0.5 附近——相差悬殊的先验，被证据淹没了。

这个收敛性质是贝叶斯方法客观性的来源：不是先验的客观，而是推断过程的客观。

17.5 逻辑与概率：真值的连续化

回到第14章的基本问题：可靠性和完备性。

在经典逻辑里，这两条性质说的是句法（\vdash）和语义（\vDash）之间的关系：能证明的都是真的（可靠），所有真的都能证明（完备）。

在概率论里，这两层关系变成了什么？

概率的"可靠性"对应：贝叶斯更新保持相干性（Coherence）。如果你的初始信念满足概率公理，贝叶斯更新后的信念也满足。推断不会制造内部矛盾，不会让你对某件事同时持有正概率和负概率。这是可靠性的概率版本。

概率的"完备性"问题：经典逻辑的不完备性（哥德尔定理）在概率框架里变成什么？这是一个更微妙的问题。概率推断不会遇到"不可证命题"——因为每个命题总有一个概率，即使它是先验给出的 0.5（完全不确定）。但这并不意味着所有真相都可以被概率推断发现——它只是意味着不确定性被明确地量化了，而不是逻辑上被阻塞了。

::: info 形式逻辑和概率：不是竞争者，是不同的真值尺度

形式逻辑和概率论经常被当作两种"推理方法"放在一起对比，好像只能选一个。但准确地说，它们生活在不同的层次：形式逻辑处理的是完全确定的信息（某个命题要么在模型里为真，要么为假），概率论处理的是不完全的信息（某个命题可能为真，可能为假，我的信念度是 p）。

一个更完整的图景是：形式逻辑是概率论在真值域退化为 \{0,1\} 时的极限情况。当所有命题的概率都是 0 或 1（完全知情的智能体），贝叶斯推断退化为布尔推断。这不是对形式逻辑的否定，而是它的泛化。
:::

17.6 信念更新的连锁：从推断到学习

贝叶斯更新是一个单步操作：拿到一个证据，更新一次信念。但推断通常是连续的——你一个接一个地观察证据，每次都更新。

这个连锁操作的结构，正是机器学习的形式基础。

设想一个参数 \theta，它决定了一个模型的行为（比如，某枚硬币的真实正面概率）。你对 \theta 有先验 P(\theta)。然后你观察数据 D = \{x_1, x_2, \ldots, x_n\}，一次一个地更新：

P(\theta \mid x_1) \propto P(x_1 \mid \theta) \cdot P(\theta)

P(\theta \mid x_1, x_2) \propto P(x_2 \mid \theta) \cdot P(\theta \mid x_1)

\vdots

P(\theta \mid D) \propto P(D \mid \theta) \cdot P(\theta) = \left(\prod_{i=1}^n P(x_i \mid \theta)\right) \cdot P(\theta)

最终的后验 P(\theta \mid D) 是你在看完所有数据后，对参数 \theta 的信念分布。

这就是贝叶斯学习：学习不是找到"正确的"参数，而是把对参数的信念分布从先验推到后验。参数不是一个点，而是一个分布——你对它有多大把握，分布的宽窄会告诉你。

这个框架和上卷第5章讨论的过拟合形成了有趣的对话：过拟合是因为模型把训练数据的噪声当成了信号，而贝叶斯框架天然地抵抗过拟合——正则化项，对应的正是先验对参数的约束。宽松的先验对应弱正则化，尖锐的先验（集中在特定参数范围的）对应强正则化。奥卡姆剃刀——"更简单的解释优先"——在贝叶斯框架里有了精确的数学表达：复杂模型需要更多数据才能打败先验对简单性的偏好。

::: info 最大后验估计（MAP）与最大似然估计（MLE）的关系

在贝叶斯框架里，常用的"点估计"做法是取后验的众数：\hat{\theta} = \arg\max_\theta P(\theta \mid D)，叫做最大后验估计（MAP）。展开：

\hat{\theta}_{\text{MAP}} = \arg\max_\theta \left[\log P(D \mid \theta) + \log P(\theta)\right]

如果先验 P(\theta) 是均匀的（所有参数同等可能），\log P(\theta) 是常数，MAP 退化为最大似然估计（MLE）：\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(D \mid \theta)。MLE 是"先验无偏"时的贝叶斯推断。这个推导说明，最大似然估计不是一个独立的推理原则，而是贝叶斯推断在均匀先验下的特例。
:::

17.7 概率无法捕捉的东西

到这里，概率论看起来几乎是万能的：它把逻辑推断推广到连续真值，解释了理性信念的必然形式，给出了学习的形式框架。

但它有一个根本的局限，在上卷第6章已经见过它的影子，这里需要用形式语言说清楚。

概率描述的是相关性，不是因果性。

考虑两个变量 X 和 Y，它们的联合分布 P(X, Y) 被完整地知道。你可以计算 P(Y \mid X = x)——给定 X 取某个值时，Y 的条件分布。但这个条件概率，无法区分以下三种情况：

X 导致 Y（因果：X \to Y）
Y 导致 X（因果：Y \to X）
X 和 Y 都是某个共同原因 Z 的结果（混淆：X \leftarrow Z \to Y）

所有三种情况，可以产生完全相同的联合分布 P(X, Y)。概率，无论更新多少次，无论观察多少数据，都无法从数据本身区分这三种情况。

这不是方法的缺陷，而是数学的结构性限制：关联关系的信息，不包含因果方向的信息。

::: info 兔狲教授评
这是整个概率论课程里最容易被跳过、代价最高的一句话。无数篇论文用条件概率回答因果问题。不是因为作者愚蠢，而是因为没有人在一开始就把这道墙画清楚。关联和因果，数学结构不同，不是量的差异，是种类的差异。就这样。
:::

如果你想推断因果——回答"如果我干预 X，Y 会怎么变"——你需要比概率更强的工具。这个工具，正是第18章的主角：因果演算（do-calculus）和结构因果模型。

悬而未决

主观性的边界在哪里？ Cox 定理证明了推断规则的唯一性，但没有规定先验。不同的先验给不同的智能体，他们观察同样的数据，最终会达成共识吗？在什么条件下会，在什么条件下不会？这是贝叶斯统计里的"先验选择"问题，至今没有普遍答案。

量子概率是贝叶斯概率的推广吗？ 量子力学里的概率——玻恩规则——和贝叶斯概率有着相似的数学结构，但量子态的坍缩机制和经典贝叶斯更新有本质差异。是否存在一个统一的框架，把经典概率和量子概率都纳入"理性信念的逻辑"？这是量子贝叶斯主义（QBism）尝试回答的问题，答案还在争论中。

概率是推断的天花板吗？ 第17.7节已经揭示了这个问题的答案：不是。概率无法区分相关和因果——X 和 Y 高度相关，但你不知道是 X 导致 Y，还是 Y 导致 X，还是某个隐藏变量 Z 同时驱动了两者。无论你观察多少数据、做多少次贝叶斯更新，这个问题的答案永远藏在概率的可见范围之外。

这不是方法的缺陷，而是数学的结构性事实：观测的信息，不包含干预的信息。要回答"如果我改变 X，Y 会怎样"，你需要一种新的推断规则——一种把"改变"这个动作本身形式化的规则。这是第18章的起点。

思考题

★ 热身

一个医学检测对某种疾病的灵敏度（sensitivity）是 90%，特异度（specificity）是 95%。即：患病者有 90% 概率检测阳性，健康者有 95% 概率检测阴性。该疾病的人群患病率是 1%。

先用直觉估计：某人检测阳性，他实际患病的概率大约是多少？写下你的直觉答案，然后用贝叶斯定理算出准确值。

P(\text{患病} \mid \text{阳性}) = \frac{P(\text{阳性} \mid \text{患病}) \cdot P(\text{患病})}{P(\text{阳性})}

（提示：P(\text{阳性}) = P(\text{阳性} \mid \text{患病}) \cdot P(\text{患病}) + P(\text{阳性} \mid \text{健康}) \cdot P(\text{健康})。把数字代入，看结果和你的直觉相差多少。）

★★ 推导

在上题的设定下：

第一次检测阳性后，以第一次的后验作为新的先验，再做第二次独立检测，结果仍为阳性。此时患病概率是多少？
如果这个人来自高风险群体，患病率是 10%（而非 1%），同样一次阳性检测后，患病概率是多少？
比较第1题（两次阳性，低风险人群）和第2题（一次阳性，高风险人群）的结果。哪种情况给出更高的患病概率？这说明了先验和证据之间什么样的关系？

★★★ 挑战

Cox 定理证明：任何满足三条理性要求的信念度量，在结构上等价于概率。但定理的第一条要求是"信念是可用实数线性序表示的"。

试着构造一个你认为合理的推断场景，其中对某个命题的信念无法被单个实数完整表达——也许需要两个数（比如"至少0.3，至多0.8"），或者需要一个分布。

这样的场景存在吗？如果存在，它说明Cox定理的前提不够普遍，还是说它只是"信念的某种精确化"在这个场景下不适用？用本章的语言尝试区分这两种可能性——不需要解决，只需要把问题说清楚。