关于信息熵的指标

最新推荐文章于 2023-09-18 19:46:28 发布

静_流

最新推荐文章于 2023-09-18 19:46:28 发布

阅读量5.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：【算法】机器学习

本文链接：https://blog.youkuaiyun.com/hiwallace/article/details/81299669

【算法】机器学习专栏收录该内容

2 篇文章

订阅专栏

信息熵

信息论中的熵，又叫信息熵，用来衡量一个随机变量的不确定程度。熵越大，不确定性越大。

H (X) = E [I (x i)] = - \sum n - 1 N P (x i) l o g (P (x i))

$H(X)=E[I(x_i)]=-\sum_{n-1}^NP(x_i)log(P(x_i))$

交叉熵

如果一个随机变量X服从p(x)分布，q(x)用于近似p(x)的概率分布，那么随机变量和模型q之间的交叉熵定义为：

H (X, q) = - \sum x p (x) l o g (q (x))

$H(X,q)=-\sum_xp(x)log(q(x))$

交叉熵本质上是用一个猜测的分布的编码方式去编码其真实分布，得到的平均编码长度或者信息量（最短的平均编码长度 = 信源的不确定程度 / 传输的表达能力，传输的表达能力为 $log_2{n}$ ,n为类别数）。
交叉熵相当于衡量两个编码方式之间的差值，因为只有当猜测的分布越接近于真实分布，则其值越小。
交叉熵损失函数是机器学习常用的一个损失函数，目标是让H(X,q)尽可能的小。对于二分类问题， $L=-\sum_iy_ilog(p(x_i))+(1-y_i)log(1-p(x_i))$

相对熵（KL散度）

相对熵是用来衡量两个分布之间的相似度。当两个随机分布完全相同，相对熵为0。

D (P | | D) = H (p, q) - H (p) = - \sum i = 1 n p i l o g (q i) - (- \sum i = 1 n p i l o g (p i)) = \sum i = 1 n p i l o g p i q i

$D(P||D)=H(p,q)-H(p)\\ 　　　　　　　　　　=-\sum_{i=1}^np_ilog(q_i)-(-\sum_{i=1}^np_ilog(p_i))\\ 　　=\sum_{i=1}^np_ilog\frac{p_i}{q_i}$

相对熵是用交叉熵减去真实分布的信息熵，表示用估计分布计算的平均编码长度（Define）比最短平均编码长度长多少，因此交叉熵=信息熵+相对熵

联合熵

联合熵表示一对随机变量（二维），平均下来所需的信息量。

H (X, Y) = - \sum x \in X \sum y \in Y p (x, y) l o g (p (x, y))

$H(X,Y)=-\sum_{x \in X}\sum_{y \in Y}p(x,y)log(p(x,y))$

条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下，随机变量Y的不确定性（期望值）。

H (Y | X) = \sum x \in X p (x) H (Y | X = x) = - \sum x \in X p (x) \sum y \in Y p (y | x) l o g p (y | x) = - \sum x \in X \sum y \in Y p (x, y) l o g p (y | x)

$H(Y|X)=\sum_{x \in X}p(x)H(Y|X=x)\\ 　　　　　　=-\sum_{x \in X}p(x)\sum_{y \in Y}p(y|x)logp(y|x)\\ 　　　　=-\sum_{x \in X}\sum_{y \in Y}p(x,y)logp(y|x)$
条件熵=联合熵-单独的熵 即H(Y|X)=H(X,Y)-H(X)，证明如下：

H (X, Y) = - \sum x, y p (x, y) l o g p (x, y) = - \sum x, y p (x, y) l o g (p (y | x) p (x)) = - \sum x, y p (x, y) l o g p (y | x) - \sum x, y p (x, y) l o g p (x) = H (Y | X) - \sum x, y p (x, y) l o g p (x) = H (Y | X) - \sum x \sum y p (x, y) l o g p (x) = H (Y | X) - \sum x l o g p (x) \sum y p (x, y) = H (Y | X) - \sum x (l o g p (x)) p (x) = H (Y | X) - \sum x p (x) l o g p (x) = H (Y | X) + H (X)

$H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)\\ 　　　　　=-\sum_{x,y}p(x,y)log(p(y|x)p(x))\\ 　　　　　　　　　　=-\sum_{x,y}p(x,y)logp(y|x)-\sum_{x,y}p(x,y)logp(x)\\ 　　　　　=H(Y|X)-\sum_{x,y}p(x,y)logp(x)\\ 　　　　　　　=H(Y|X)-\sum_x\sum_yp(x,y)logp(x)\\ 　　　　　　　=H(Y|X)-\sum_xlogp(x)\sum_yp(x,y)\\ 　　　　　=H(Y|X)-\sum_x(logp(x))p(x)\\ 　　　　=H(Y|X)-\sum_xp(x)logp(x)\\ 　=H(Y|X)+H(X)$