7.1 通用编码与最小充分统计 7.1 通用编码与最小充分统计:从信息压缩到知识发现的本质 在信息论的长河中,克劳德·香农(Claude Shannon)的奠基性工作为我们揭示了通信的极限。然而,香农理论在很大程度上依赖于一个核心假设:信源的概率分布 $P(x)$ 是预先已知的。在现实世界的复杂场景中,无论是自然语言的演化、生物基因序列的排列,还是金融市场的波动,这种先验知识往往是奢侈的幻觉。当统计规律隐匿在迷雾之中时,我们如何实现接近极限的编码效率?又如何从浩如烟海的数据中提炼出那不可磨灭的本质特征? 这正是“通用编码(Universal Coding)”与“最小充分统计(Minimal Sufficient Statistics)”所要回答的终极问题。