吉布斯不等式

编辑
本词条由“匿名用户” 建档。
在信息论中,吉布斯不等式是关于离散概率分布的信息熵的陈述。概率分布的熵的其他几个界限来自吉布斯不等式,包括Fano不等式。它首先由J.WillardGibbs在19世纪提出。 假设 P={p1,…,pn}{\\displaystyleP=\\{p_{1},\\ldots,p_{n}\\}} 是离散概率分布。对于所有我。换句话说,分布P的信息熵小于或等于它与任何其他分布Q的交叉熵。 两个量之间的差异...

吉布斯不等式

编辑

在信息论中,吉布斯不等式是关于离散概率分布的信息熵的陈述。 概率分布的熵的其他几个界限来自吉布斯不等式,包括 Fano 不等式。它首先由 J. Willard Gibbs 在 19 世纪提出。

吉布斯不等式

编辑

假设

P = { p 1 , … , p n } {\displaystyle P=\{p_{1},\ldots ,p_{n}\}}

是离散概率分布。 对于所有我。 换句话说,分布 P 的信息熵小于或等于它与任何其他分布 Q 的交叉熵

两个量之间的差异是 Kullback–Leibler 散度或相对熵

请注意,以 2 为底的对数的使用是可选的,并且允许将不等式每一侧的数量称为以位为单位测量的平均意外。

证明

编辑

为简单起见,我们使用自然对数 (ln) 证明该陈述,因为

log ⁡ a = ln ⁡ a ln ⁡ 10 , {\displaystyle \log a={\frac {\ln a}{\ln 10}},}

我们选择的特定对数只会缩放关系。

让 I {\displaystyle I} 表示 pi 非零的所有 i {\displaystyle i} 的集合。 然后,由于 ln ⁡ x ≤ x − 1 {\displaystyle \ln x\leq x-1} 对于所有 x >; 0,当且仅当 x=1 时相等

最后一个不等式是 pi 和 qi 作为概率分布的一部分的结果。 具体来说,所有非零值的总和为 1。然而,一些非零 qi 可能已被排除,因为指数的选择取决于 pi 是否为非零。 所以气的总和可能小于1。

两个和都可以扩展到所有 i = 1 , … , n {\displaystyle i=1,\ldots ,n} ,即包括 p i = 0 {\displaystyle p_{i}=0} ,通过回顾 表达式 p ln ⁡ p {\displaystyle p\ln p} 趋于 0 因为 p {\displaystyle p} 趋于 0,并且 ( − ln ⁡ q ) {\displaystyle (-\ln q)} 趋于 到 ∞ {\displaystyle \infty } 因为 q {\displaystyle q} 趋于 0。

替代证明

编辑

也可以使用 Jensen 不等式、对数和不等式或 Kullback-Leibler 散度是 Bregman 散度的一种形式来证明结果。 下面我们给出一个基于詹森不等式的证明:

因为 log 是凹函数吉布斯不等式

其中xxx个不等式是由于 Jensen 不等式引起的,而最后一个不等式是由于上述证明中给出的相同原因引起的。

此外,由于 log {\displaystyle \log } 是严格凹的,根据 Jensen 不等式的相等条件。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/203882/

(4)
词条目录
  1. 吉布斯不等式
  2. 吉布斯不等式
  3. 证明
  4. 替代证明

轻触这里

关闭目录

目录
尊敬的全球百科用户,全球百科新系统上线了!新增排名保障卡、词条年卡,更有增值功能——百度排名保障包年服务,详情访问“glopedia.cn/261472/”关注公众号可联系人工客服。