发布时间:2022-05-18 09:46 原文链接: 熵的信息论解释

1948年,香农将统计物理中熵的概念,引申到信道通信的过程中,从而开创了”信息论“这门学科。香农定义的“熵”又被称为“香农熵”或“信息熵”,即

其中标记概率空间中所有可能的样本,表示该样本的出现几率,是和单位选取相关的任意常数。可以明显看出“信息熵”的定义和“热力学熵”(玻尔兹曼公式)的定义只相差某个比例常数。数学上,可以证明“香农熵”的定义,具有以下良好性质:

连续性

该度量应该是连续的,即,若样本概率值有微小变化,由此引起的熵变化也是微小的。

对称性

样本重新排序后,该度量应保持不变,即

极值性

当所有样本等几率出现的情况下,熵达到最大值(所有可能的事件等概率时不确定性最高)

对于样本等几率分布而言,样本数越大,熵值越大(可能的事件越多,不确定性越高)

可加性

熵的值与过程如何被划分无关。它描述了一个系统与其子系统熵的关系。如果子系统之间的相互作用是已知的,则可以通过子系统的熵来计算一个系统的熵。例如:给定一个有n个样本的均匀分布集合,分为k个箱子(子系统),每个里面有 b1, ..., bk 个样本,合起来的熵应等于系统的熵与各个箱子的熵的和,每个箱子的权重为在该箱中样本的总概率。即,对于正整数bi其中b1 + ... + bk = n来说,其中S的脚标,标记对应概率空间的样本点个数。

事实上,香农证明如果要求度量满足这些性质,则可以完全确定“信息熵”的定义表达式。