有关熵的几个概念及最大似然和交叉熵的一致性

最新推荐文章于 2025-07-05 10:11:49 发布

原创

最新推荐文章于 2025-07-05 10:11:49 发布 · 8.2k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#熵 #信息论 #KL散度 #交叉熵

本文介绍了随机事件的信息量，特别是自信息的概念，它描述了不确定性的程度。接着，讨论了熵、联合熵、互信息、条件熵和交叉熵等信息论中的关键概念。此外，还探讨了交叉熵与最大似然损失函数的一致性，特别是在二分类问题中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随机事件的信息量

　　为了描述一个随机事件的信息量，定义了自信息。
　　自信息表示不确定性的程度。
　　一个事件确定发生，是没有信息量的；而一个事件发生的概率越小，则其信息量越大。
　　未知所带来的不确定性，就是自信息要描述的目标。
　　自信息：　　

I (x) = l o g i 1 p ( x )

$I(x)= log_i \frac{1}{p(x)}$ 　　 notice：这里的自信息量并不代表信息作用的大小。一般以2为基底。

　　熵：自信息的期望。　　

H (x) = \sum i l o g 2 1 p ( x i )

$H(x) = \sum_i log_2 \frac{1}{p(x_i)}$ 　　所有可能情况的信息量的加权均值。（各种不确定情况的平均情况）
　　同时，熵可以表示系统或者变量的混乱程度，越混乱，熵越大。均匀分布时，熵最大。
　　 熵在均匀分布时取得最大值，证明如下：
　　已知：　　

H (x) = \sum i ln 1 p ( x i ), s . t . \sum i p (x i) = 1

$H(x)= \sum_i \ln \frac{1} {p(x_i)}, s.t. \sum_i p(x_i) = 1$ 　　由拉格朗日法构造函数：

F (x) = \sum i ln 1 p ( x i ) + λ (\sum i p (x i) - 1)

$F(x)= \sum_i \ln \frac{1} {p(x_i)} + \lambda (\sum_i p(x_i) -1)$
　　分别对

p(xi) $p(x_i)$ 和

λ $\lambda$ 求偏导数：　　

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \partial F \partial p ( x i ) = [ln 1 p ( x i ) + p (x i) * 1 1 p ( x i ) * - 1 p 2 ( x i )] + λ = - ln p (x i) - 1 + λ = 0 \partial F \partial λ = \sum i p (x i) - 1 = 0

$\left\{\begin{matrix}\frac{ \partial F} { \partial p(x_i)} = [\ln \frac{1}{p(x_i)} + p(x_i)*\frac{1}{\frac{1}{p(x_i)}}*\frac{-1}{p^2(x_i)}] + \lambda = -\ln p(x_i) -1 + \lambda = 0& \\ \frac{ \partial F} { \partial \lambda} = \sum_i p(x_i) - 1 =0& \end{matrix}\right.$ 　　求得：