第17章:概率作为逻辑的扩张——真值从 {0,1} 到 [0,1] 概率不是频率。它是理性信念在不确定性下的唯一相容表示。 第16章结尾留下了一个悬念:线性逻辑的语义暗示"真值"不再是一个简单的 $\{0,1\}$,而是某种更丰富的结构。但那个方向——相位语义、相干空间——是一条技术上艰难的路,留给研究者。 有一条更宽阔的路。 如果"真值"不是非真即假,而是一个介于 0 和 1 之间的实数,会发生什么?如果这个实数表示的是某个智能体对命题为真的相信程度,推断规则又应该长什么样子? 这就是本章的问题。答案的名字叫贝叶斯概率论——但不是你可能学过的那个频率主义版本,而是它的逻辑基础版本:概率作为理性信念的表达,服从可以被演绎推导出来的法则。 17.
概率不是频率。它是理性信念在不确定性下的唯一相容表示。
第16章结尾留下了一个悬念:线性逻辑的语义暗示"真值"不再是一个简单的 \{0,1\},而是某种更丰富的结构。但那个方向——相位语义、相干空间——是一条技术上艰难的路,留给研究者。
有一条更宽阔的路。
如果"真值"不是非真即假,而是一个介于 0 和 1 之间的实数,会发生什么?如果这个实数表示的是某个智能体对命题为真的相信程度,推断规则又应该长什么样子?
这就是本章的问题。答案的名字叫贝叶斯概率论——但不是你可能学过的那个频率主义版本,而是它的逻辑基础版本:概率作为理性信念的表达,服从可以被演绎推导出来的法则。
现在我们把真值从黑白棋子换成筹码。
桌上有若干命题:H_1, H_2, \ldots, H_k。你手里有一百枚信念筹码,必须把它们分配到这些命题上。某个命题拿到的筹码越多,表示你越相信它。游戏的要求不是“永远押中”,而是更基本:你的下注不能自相矛盾。
然后证据来了。你看见 E。规则要求你重新分配筹码:支持 E 的假设获得更多筹码,难以解释 E 的假设失去筹码。这个移动不是随便挪,而必须服从贝叶斯更新:
你可以把贝叶斯公式看作赌场里的防作弊规则:如果你不按这个方式更新,一个足够聪明的庄家就能设计一组赌局,让你无论世界怎样都亏钱。这就是 Dutch book 的直觉。
:::details 这个游戏的形式化骨架
这个游戏的关键不是“概率能保证你正确”。概率没有这么大的本事。它只保证一件更谦逊、也更必要的事:在证据不完整时,你的信念更新不互相打架。
形式逻辑处理的是确定世界里的合法推出;概率逻辑处理的是不确定世界里的合法更新。前者问“这个结论能不能推出”,后者问“看到这个证据后,我应该把信念挪到哪里”。
::: info 兔狲教授评
概率不是给胆小鬼准备的模糊逻辑。概率是理性在信息不足时还能站稳的姿势。你不知道答案,所以你分配筹码;证据来了,所以你移动筹码。真正不理性的不是不确定,而是假装自己在不确定中仍然拥有确定性。
:::
"概率 \frac{1}{2}"是什么意思?
频率主义的回答:抛这枚硬币无数次,正面出现的比例趋近于 \frac{1}{2}。概率是长程频率,只对可重复实验有意义。
贝叶斯主义的回答:我认为这枚硬币下一次落地为正面的可能性是 \frac{1}{2}。概率是信念的度量,对单次事件同样有意义。
这个争论持续了一个世纪,至今没有完全结束。但有一个问题,频率主义无法回答,而贝叶斯主义可以:
"明天下雨的概率是多少?"
明天只会发生一次。没有无限次重复。你无法等待无穷多个"明天"来测量频率。然而天气预报说 70% 的降雨概率,这个 70% 是有意义的——它描述的是预报员基于现有气象数据对"明天下雨"这个命题的信念强度。
贝叶斯概率论的核心主张是:概率是信念的逻辑,不是频率的统计。而且,一个理性智能体的信念必须服从概率公理——不是因为自然规律如此,而是因为违反概率公理的信念是不自洽的,会在推断中产生矛盾。
理查德·考克斯(Richard Cox)1946 年问了一个问题:如果你要用实数表达信念强度,使得这套表达方式是内部一致的,那么这些实数必须满足什么约束?
他的出发点是三条要求,每一条都是理性信念的最低标准:
要求一(有序性):信念是可比较的。对于任意两个命题 A 和 B,你对 A 的相信程度要么高于、等于、或低于对 B 的相信程度。
要求二(一致性):对复合命题的信念,完全由对组成命题的信念决定。你对"A 且 B"的相信程度,是 A 的信念度和"已知 A 成立时对 B 的信念度"的某个函数。
要求三(对偶性):对 A 的相信程度和对 \neg A 的相信程度,是互补的——完全确信 A 意味着完全不信 \neg A。
Cox 证明了:在这三条要求下,任何内部一致的信念度量,必然在某个单调变换的意义下等价于标准概率。也就是说,你可以选择不同的标度(用 [0,100] 而不是 [0,1]),但推断规则的结构完全确定:
这不是实验发现的规律,而是理性自洽的必然结果。如果你用数字表达信念,而且你的信念是内部一致的,你就在用概率——你只是可能还没意识到这一点。
::: info 兔狲教授评
Cox 定理的结论让很多人误以为"贝叶斯是唯一理性的"。慢着——定理的前提是信念可以被实数线性序表示。如果你质疑这个前提,整个定理不适用。定理的力量来自前提,先把前提想清楚,再讨论结论的必然性。别把条件件的结论当成无条件的真理。
:::
::: info Cox 定理的哲学意涵
Cox 定理的深刻之处在于它的"唯一性":满足理性要求的信念度量,在结构上是唯一的。这意味着概率论不是人类发明的一套工具——它是理性信念的必然形式。如果你拒绝概率论,你要么拒绝对信念进行比较(放弃有序性),要么接受信念间的内部矛盾。
这和第14章的精神完全一致:形式系统的公理不是任意约定,而是为了避免矛盾而必须接受的最低限度。Cox 定理把同样的逻辑应用于信念:为了避免不自洽,信念必须服从概率公理。
:::
有了概率作为信念度量,"推断"变成了什么?
在形式逻辑里,推断是从已知真命题产生新的真命题。在概率论里,推断是从已知观测更新对命题的信念度。
这个更新的规则,是概率论最重要的定理:
用中文说清楚这四个量:
:::details 先验 / 似然 / 后验:三角关系图解
这三个词是贝叶斯推断的核心,初次接触经常混淆:
先验(Prior)P(H):你在看任何数据之前就有的信念。例:"我猜这枚硬币是公平的,正面概率 50%。"来源是领域知识、历史数据、或无信息假设。
似然(Likelihood)P(E \mid H):如果假设 H 是真的,观测到当前证据 E 的概率。注意方向——不是"看到 E 后 H 多可能",而是"假设 H 真,E 出现的概率"。例:"如果硬币公平,连续 3 次正面的概率是 1/8。"
后验(Posterior)P(H \mid E):看到证据之后,更新过的信念。这才是你真正想要的答案。
边际概率 P(E):归一化常数,保证后验概率加起来等于 1。实际计算时常用 \text{后验} \propto \text{似然} \times \text{先验},忽略这个常数。
记忆公式:新信念 ∝ 旧信念 × 证据的支持力度
:::
这就是贝叶斯定理,或者更准确地说,贝叶斯推断的核心操作。
但写成公式容易让人错过它的逻辑本质。更清楚的写法是:
(\propto 表示正比于,P(E) 是常数归一化因子,不改变相对比例。)
这个式子说的是:看到证据之后的信念,是看到证据之前的信念经过证据加权之后的结果。证据通过似然函数作用于先验,把先验"推"到后验。
回到信念筹码游戏,贝叶斯公式不是一条外加的“统计技巧”,而是筹码移动的合法性规则。你当然可以凭感觉把筹码从一个假设挪到另一个假设;但只要你不按似然和先验的比例移动,就会留下可被 Dutch book 利用的套利缝隙。概率论的冷酷就在这里:它不保证你押中,只保证你别在自己的下注规则里自相矛盾。
::: info 推断规则的结构类比
把贝叶斯更新和第14章的推断规则对比,相似处令人吃惊:
两者都是"用已有的东西推出新的东西",差别在于:形式逻辑的"已有的东西"是 \{0,1\} 值的真命题,贝叶斯的"已有的东西"是 [0,1] 值的信念度。贝叶斯推断是把假言推理扩张到连续真值域上的版本。
:::
贝叶斯推断有一个让很多人不舒服的地方:你需要一个先验。
先验是你在看到任何证据之前就已经持有的信念。这从哪里来?如果我完全不知道,先验是什么?
频率主义者认为这个要求是贝叶斯方法的致命弱点——先验是主观的,不同的人可以有不同的先验,得到不同的后验,谁说谁对?
贝叶斯主义者的回答分两层。
第一层:先验不是任意的。理性先验受到各种约束。最基本的约束是对称性:如果你对某种情况一无所知,你没有任何理由让先验偏向任何一侧。这给出了"无信息先验"——在没有任何偏好信息时,分配均匀先验(对离散情况)或最大熵先验(对连续情况)。
第二层:先验的影响随证据增多而消退。这是贝叶斯更新的一个数学定理:在足够多的独立观测之后,无论你从哪个先验出发,后验都会收敛到同一个位置。主观先验是暂时的,数据是客观的,理性智能体最终会达成共识。
用一个极端的例子说明。假设两个人争论某枚硬币是否均匀:一个人先验认为正面概率是 0.99,另一个人认为是 0.01。他们同时观察这枚硬币被抛 1000 次,其中 503 次正面。贝叶斯更新之后,两个人的后验都会集中在 0.5 附近——相差悬殊的先验,被证据淹没了。
这个收敛性质是贝叶斯方法客观性的来源:不是先验的客观,而是推断过程的客观。
回到第14章的基本问题:可靠性和完备性。
在经典逻辑里,这两条性质说的是句法(\vdash)和语义(\vDash)之间的关系:能证明的都是真的(可靠),所有真的都能证明(完备)。
在概率论里,这两层关系变成了什么?
概率的"可靠性"对应:贝叶斯更新保持相干性(Coherence)。如果你的初始信念满足概率公理,贝叶斯更新后的信念也满足。推断不会制造内部矛盾,不会让你对某件事同时持有正概率和负概率。这是可靠性的概率版本。
概率的"完备性"问题:经典逻辑的不完备性(哥德尔定理)在概率框架里变成什么?这是一个更微妙的问题。概率推断不会遇到"不可证命题"——因为每个命题总有一个概率,即使它是先验给出的 0.5(完全不确定)。但这并不意味着所有真相都可以被概率推断发现——它只是意味着不确定性被明确地量化了,而不是逻辑上被阻塞了。
::: info 形式逻辑和概率:不是竞争者,是不同的真值尺度
形式逻辑和概率论经常被当作两种"推理方法"放在一起对比,好像只能选一个。但准确地说,它们生活在不同的层次:形式逻辑处理的是完全确定的信息(某个命题要么在模型里为真,要么为假),概率论处理的是不完全的信息(某个命题可能为真,可能为假,我的信念度是 p)。
一个更完整的图景是:形式逻辑是概率论在真值域退化为 \{0,1\} 时的极限情况。当所有命题的概率都是 0 或 1(完全知情的智能体),贝叶斯推断退化为布尔推断。这不是对形式逻辑的否定,而是它的泛化。
:::
贝叶斯更新是一个单步操作:拿到一个证据,更新一次信念。但推断通常是连续的——你一个接一个地观察证据,每次都更新。
这个连锁操作的结构,正是机器学习的形式基础。
设想一个参数 \theta,它决定了一个模型的行为(比如,某枚硬币的真实正面概率)。你对 \theta 有先验 P(\theta)。然后你观察数据 D = \{x_1, x_2, \ldots, x_n\},一次一个地更新:
最终的后验 P(\theta \mid D) 是你在看完所有数据后,对参数 \theta 的信念分布。
这就是贝叶斯学习:学习不是找到"正确的"参数,而是把对参数的信念分布从先验推到后验。参数不是一个点,而是一个分布——你对它有多大把握,分布的宽窄会告诉你。
这个框架和上卷第5章讨论的过拟合形成了有趣的对话:过拟合是因为模型把训练数据的噪声当成了信号,而贝叶斯框架天然地抵抗过拟合——正则化项,对应的正是先验对参数的约束。宽松的先验对应弱正则化,尖锐的先验(集中在特定参数范围的)对应强正则化。奥卡姆剃刀——"更简单的解释优先"——在贝叶斯框架里有了精确的数学表达:复杂模型需要更多数据才能打败先验对简单性的偏好。
::: info 最大后验估计(MAP)与最大似然估计(MLE)的关系
在贝叶斯框架里,常用的"点估计"做法是取后验的众数:\hat{\theta} = \arg\max_\theta P(\theta \mid D),叫做最大后验估计(MAP)。展开:
如果先验 P(\theta) 是均匀的(所有参数同等可能),\log P(\theta) 是常数,MAP 退化为最大似然估计(MLE):\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(D \mid \theta)。MLE 是"先验无偏"时的贝叶斯推断。这个推导说明,最大似然估计不是一个独立的推理原则,而是贝叶斯推断在均匀先验下的特例。
:::
到这里,概率论看起来几乎是万能的:它把逻辑推断推广到连续真值,解释了理性信念的必然形式,给出了学习的形式框架。
但它有一个根本的局限,在上卷第6章已经见过它的影子,这里需要用形式语言说清楚。
概率描述的是相关性,不是因果性。
考虑两个变量 X 和 Y,它们的联合分布 P(X, Y) 被完整地知道。你可以计算 P(Y \mid X = x)——给定 X 取某个值时,Y 的条件分布。但这个条件概率,无法区分以下三种情况:
所有三种情况,可以产生完全相同的联合分布 P(X, Y)。概率,无论更新多少次,无论观察多少数据,都无法从数据本身区分这三种情况。
这不是方法的缺陷,而是数学的结构性限制:关联关系的信息,不包含因果方向的信息。
::: info 兔狲教授评
这是整个概率论课程里最容易被跳过、代价最高的一句话。无数篇论文用条件概率回答因果问题。不是因为作者愚蠢,而是因为没有人在一开始就把这道墙画清楚。关联和因果,数学结构不同,不是量的差异,是种类的差异。就这样。
:::
如果你想推断因果——回答"如果我干预 X,Y 会怎么变"——你需要比概率更强的工具。这个工具,正是第18章的主角:因果演算(do-calculus)和结构因果模型。
主观性的边界在哪里? Cox 定理证明了推断规则的唯一性,但没有规定先验。不同的先验给不同的智能体,他们观察同样的数据,最终会达成共识吗?在什么条件下会,在什么条件下不会?这是贝叶斯统计里的"先验选择"问题,至今没有普遍答案。
量子概率是贝叶斯概率的推广吗? 量子力学里的概率——玻恩规则——和贝叶斯概率有着相似的数学结构,但量子态的坍缩机制和经典贝叶斯更新有本质差异。是否存在一个统一的框架,把经典概率和量子概率都纳入"理性信念的逻辑"?这是量子贝叶斯主义(QBism)尝试回答的问题,答案还在争论中。
概率是推断的天花板吗? 第17.7节已经揭示了这个问题的答案:不是。概率无法区分相关和因果——X 和 Y 高度相关,但你不知道是 X 导致 Y,还是 Y 导致 X,还是某个隐藏变量 Z 同时驱动了两者。无论你观察多少数据、做多少次贝叶斯更新,这个问题的答案永远藏在概率的可见范围之外。
这不是方法的缺陷,而是数学的结构性事实:观测的信息,不包含干预的信息。要回答"如果我改变 X,Y 会怎样",你需要一种新的推断规则——一种把"改变"这个动作本身形式化的规则。这是第18章的起点。
★ 热身
一个医学检测对某种疾病的灵敏度(sensitivity)是 90%,特异度(specificity)是 95%。即:患病者有 90% 概率检测阳性,健康者有 95% 概率检测阴性。该疾病的人群患病率是 1%。
先用直觉估计:某人检测阳性,他实际患病的概率大约是多少?写下你的直觉答案,然后用贝叶斯定理算出准确值。
(提示:P(\text{阳性}) = P(\text{阳性} \mid \text{患病}) \cdot P(\text{患病}) + P(\text{阳性} \mid \text{健康}) \cdot P(\text{健康})。把数字代入,看结果和你的直觉相差多少。)
★★ 推导
在上题的设定下:
★★★ 挑战
Cox 定理证明:任何满足三条理性要求的信念度量,在结构上等价于概率。但定理的第一条要求是"信念是可用实数线性序表示的"。
试着构造一个你认为合理的推断场景,其中对某个命题的信念无法被单个实数完整表达——也许需要两个数(比如"至少0.3,至多0.8"),或者需要一个分布。
这样的场景存在吗?如果存在,它说明Cox定理的前提不够普遍,还是说它只是"信念的某种精确化"在这个场景下不适用?用本章的语言尝试区分这两种可能性——不需要解决,只需要把问题说清楚。