2.3.1 定义$I(X;Y)=H(X)-H(X|Y)$

文档摘要

2.3.1 定义$I(X;Y)=H(X)-H(X|Y)$ 2.3.1 定义 $I(X;Y)=H(X)-H(X|Y)$：从理论推导到工程实践在信息论的长河中，如果说熵 $H(X)$ 是衡量单一随机变量不确定性的标尺，那么互信息 $I(X;Y)$ 则是衡量两个变量之间“羁绊”深浅的终极度量。作为技术专家，我们在处理信号处理、特征工程或深度学习中的表征学习时，往往不满足于仅仅知道两个变量是否相关，我们更渴望量化一个变量的减少能为另一个变量带来多少“确定性”。本节将深入探讨互信息的定义式 $I(X;Y) = H(X) - H(X|Y)$。我们将剥开公式的数学外壳，深入到算法实现、工程细节以及在复杂数据环境下的应用技巧中。信息增益的直观图景：为什么是减法？