2.2.2 条件熵$H(X|Y)$与链式法则 2.2.2 条件熵 $H(X|Y)$ 与链式法则 在信息论的宏大版图中,如果说信息熵 $H(X)$ 是衡量单一随机变量不确定性的标尺,那么条件熵 $H(X|Y)$ 则是衡量“知识如何消除不确定性”的核心度量。作为一名长期深耕于大规模分布式学习系统和信息处理的一线研发工程师,我深知理论公式背后的工程价值。在处理自然语言处理(NLP)中的序列建模、推荐系统中的特征筛选,或是通信系统中的信道编码时,条件熵与链式法则是我们手中最锋利的解剖刀。 一、 条件熵的本质:已知信息后的残余不确定性 当我们谈论条件熵 $H(X|Y)$ 时,我们实际上是在问一个问题:在已知随机变量 $Y$ 的情况下,随机变量 $X$ 还剩下多少不确定性?