2.3.1 定义$I(X;Y)=H(X)-H(X|Y)$ 2.3.1 定义 $I(X;Y)=H(X)-H(X|Y)$:从理论推导到工程实践 在信息论的长河中,如果说熵 $H(X)$ 是衡量单一随机变量不确定性的标尺,那么互信息 $I(X;Y)$ 则是衡量两个变量之间“羁绊”深浅的终极度量。作为技术专家,我们在处理信号处理、特征工程或深度学习中的表征学习时,往往不满足于仅仅知道两个变量是否相关,我们更渴望量化一个变量的减少能为另一个变量带来多少“确定性”。 本节将深入探讨互信息的定义式 $I(X;Y) = H(X) - H(X|Y)$。我们将剥开公式的数学外壳,深入到算法实现、工程细节以及在复杂数据环境下的应用技巧中。 信息增益的直观图景:为什么是减法?