信息论——度量信息的数学 兔狲教授的提示:信息是物理世界之外的另一个基本量。信息论不仅告诉我们如何高效地存储和传输信息,更重要的是,它提供了度量信息、不确定性和知识的数学框架。从数据压缩到通信编码,从机器学习到量子计算,信息论是现代数字世界的基石。 词条1:信息熵——不确定性的度量 官方解释 信息熵:离散随机变量 $X$ 的熵 $H(X) = -\sum{x\in\mathcal{X}} p(x) \log p(x)$。 性质: 非负性:$H(X) \ge 0$ 最大值:当分布均匀时熵最大 可加性:独立随机变量的联合熵等于熵的和 直观理解:熵度量了随机变量的不确定性或'惊喜程度'。
兔狲教授的提示:信息是物理世界之外的另一个基本量。信息论不仅告诉我们如何高效地存储和传输信息,更重要的是,它提供了度量信息、不确定性和知识的数学框架。从数据压缩到通信编码,从机器学习到量子计算,信息论是现代数字世界的基石。
信息熵:离散随机变量 X 的熵 H(X) = -\sum_{x\in\mathcal{X}} p(x) \log p(x)。
性质:
直观理解:熵度量了随机变量的不确定性或'惊喜程度'。
单位:
熵是'意外的期望值'。
小小猪举了个例子:天气预报:
信息量:事件 x 的信息量 I(x) = -\log p(x)
熵的极值:
问题:计算以下分布的熵:
问题:证明:H(X) \le \log|\mathcal{X}|,等号成立当且仅当 X 均匀分布。
问题:熵为什么用对数定义?线性函数不行吗?
思考方向:
联合熵:H(X,Y) = -\sum_{x,y} p(x,y) \log p(x,y)
条件熵:H(Y|X) = \sum_x p(x) H(Y|X=x) = -\sum_{x,y} p(x,y) \log p(y|x)
链式法则:H(X,Y) = H(X) + H(Y|X)
互信息:I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X)+H(Y)-H(X,Y)
性质:
这些量描述'变量之间的关系'。
小海豹举了个例子:天气和穿衣:
如果穿衣完全由天气决定:H(Y|X)=0,I(X;Y)=H(Y)
如果穿衣与天气无关:H(Y|X)=H(Y),I(X;Y)=0
问题:设 X, Y 的联合分布:
p(0,0)=0.4,p(0,1)=0.1,p(1,0)=0.2,p(1,1)=0.3
计算:H(X),H(Y),H(X,Y),H(X|Y),H(Y|X),I(X;Y)
问题:证明:
问题:互信息与相关系数有什么区别?各度量什么?
思考方向:
KL散度(相对熵):D_{KL}(P\|Q) = \sum_x p(x) \log\frac{p(x)}{q(x)}
性质:
交叉熵:H(P,Q) = -\sum_x p(x) \log q(x) = H(P) + D_{KL}(P\|Q)
KL散度是"分布间的距离"(但不是度量)。
兔狲教授举例说:真实分布 P vs 模型分布 Q:
机器学习中的交叉熵损失:
分类问题:真实标签 y,预测概率 \hat{y}
损失 = -\sum_i y_i \log \hat{y}_i
这就是交叉熵!最小化交叉熵 = 最小化KL散度(因为 H(P) 固定)
KL散度的不对称性:
问题:计算KL散度:
问题:证明:D_{KL}(P\|Q) \ge 0(用Jensen不等式)。
问题:为什么KL散度不对称?这在实际应用中有什么影响?
思考方向:
编码:将源符号映射到码字(二进制串)。
前缀码:没有任何码字是其他码字的前缀。
Kraft不等式:前缀码存在的充要条件是 \sum_i 2^{-l_i} \le 1,其中 l_i 是码字长度。
最优编码:码长 l(x) \approx -\log p(x)(按概率倒数的对数分配码长)。
香农第一定理(无噪声编码定理):
对离散无记忆信源,存在编码使平均码长 L 满足 H(X) \le L < H(X)+1。
编码是'用比特表示信息'。
小小猪举了个例子:压缩英文文本:
熵的意义:
实际编码:
问题:对符号集 \{A,B,C,D\},概率 p(A)=0.5,p(B)=0.25,p(C)=0.125,p(D)=0.125:
问题:证明Kraft不等式:对前缀码,\sum_i 2^{-l_i} \le 1。
问题:香农定理的哲学意义是什么?"信息"可以被精确度量吗?
思考方向:
离散无记忆信道:输入 X,输出 Y,转移概率 p(y|x)。
信道容量:C = \max_{p(x)} I(X;Y),最大互信息。
香农第二定理(有噪声信道编码定理):
只要传输速率 R < C,就存在编码使错误概率任意小;如果 R > C,错误概率有下界。
信道编码:添加冗余纠正错误。
典型序列:概率接近 2^{-nH(X)} 的序列,占据大部分概率质量。
信道容量是'可靠通信的极限'。
小海豹举了个例子:二进制对称信道(BSC):
编码奇迹:
实际系统:
问题:计算以下信道容量:
问题:证明:C \le \min\{\log|\mathcal{X}|, \log|\mathcal{Y}|\}。
问题:香农第二定理为什么令人惊讶?它解决了什么问题?
思考方向:
最小描述长度(MDL):选择使"模型复杂度+数据拟合误差"最小的模型。
信息瓶颈:在压缩输入和预测输出之间权衡。
变分推断:用KL散度近似后验分布。
互信息最大化:在表示学习中。
信息论聚类:如信息瓶颈聚类。
信息论是AI的'指导原则'。
兔狲教授举例说:决策树学习:
表示学习:
生成模型:
信息论与深度学习:
问题:实现决策树:
问题:用信息瓶颈分析简单数据集:
问题:信息论如何改变我们对机器学习的理解?从'最小化误差'到'信息处理'的视角转变。
思考方向:
兔狲教授总结道:信息论不仅是一套数学工具,更是一种世界观:
在AI中,信息论提供了:
掌握信息思维,你就掌握了:
小小猪的体会:原来信息可以像物理量一样精确度量!
小海豹的反思:信息论让我理解了学习的本质是从数据中提取信息。
下一章预告:我们将学习线性模型,这是机器学习的基础,也是理解复杂模型的起点。