No.2 信息熵的广义可加性:条件熵、互信息的几何含义
发布网友
发布时间:2024-10-06 14:22
我来回答
共1个回答
热心网友
时间:2024-10-08 08:43
信息论以自信息的合理定义为基础,引入信息熵,它是自信息期望值的平均表现。进一步推广到多变量,得到了联合熵的概念。尽管条件熵和互信息的初始定义可能不直观,本文将从几何视角进行探讨。
以圆形面积代表随机变量的信息,一个圆代表[公式]的信息,另一个圆代表[公式]的信息。在非独立情况下,两圆重叠区域的面积即为联合熵。条件熵可理解为圆中黄色区域的面积,等于联合熵减去[公式]的面积,表达式如下:[公式]。类似地,[公式]的条件熵也有类似的定义。
互信息则定义为两个圆交集的面积,即X和Y信息的共享部分。从几何角度看,红色区域面积等于X和Y的面积之和减去联合熵,或X面积减去条件熵[公式]。通过几何定义,我们可推导出原始互信息定义:[公式]。
总结来说,信息熵从“面积”概念上体现出“广义可加性”,这与人类直觉相符,它源自自信息的合理性。通过几何解释,我们不仅直观理解了条件熵和互信息,还证明了其原始定义的合理性。附上《An introduction to Single-User Information Theory》中关于几何示意图的总结。
参考文献:[1] Alajaji, Fady, and Po-Ning Chen, "An Introduction to Single-User Information Theory", Springer Singapore, 2018; [2] 知乎文章链接