一文说清楚你头疼不已的熵们：信息熵、联合熵、条件熵、互信息、交叉熵、相对熵（KL散度）

最新推荐文章于 2023-10-22 21:01:49 发布

Jamie_Wu

最新推荐文章于 2023-10-22 21:01:49 发布

阅读量1.5k

点赞数 5

分类专栏：机器学习文章标签：信息熵条件熵交叉熵相对熵机器学习

本文链接：https://blog.youkuaiyun.com/ibelieve8013/article/details/102636062

版权

文章目录

1. 信息熵
2. 联合熵
3. 条件熵
4. 互信息
5. 交叉熵
6. 相对熵（KL散度）
7. 总结

说起熵，相信看本文的你一定听过这个概念，我们以前高中的时候在化学里学过，我们有一种大致的概念就是：熵是描述系统混乱程度的一种物理量，而且我们知道世界是向着熵增的方向进行的。那么在信息论里面，熵又是一种什么样的存在呢，为什么要引入这样抽象的一个概念，香农大佬为啥要把人搞得迷迷糊糊的？而你搞机器学习的话，肯定会遇到什么联合熵，条件熵，交叉熵。这些熵，到底是什么关系，有什么用？本文将会尽量把信息熵之间的关系给阐述清楚，让你茅塞顿开，一泻千里。

1. 信息熵

我们说信息熵，当然就不再是化学中的熵的概念了，但是他们的内在精神十分相似，信息熵是描述一个随机变量的不确定性的，如X是一个随机变量，概率分布是 $p (x) = P (X = x)$ ，那么X的熵的定义为式子：
$-\Sigma_xp(x)log_2p(x)$

我们看到底数是2，因此熵的单位是比特，以后可以省略底数2。
你可以试图取两个分布，A是0.2,0.8；B是0.5,0.5，算算谁的熵更大呢？很容易可以算出后者的熵更大，这是什么意思呢？我们看A和B谁的不确定性更大？当然是B了，那么它的熵算出来更大，是不是也是更合理的呢？就是基于这样的一种思想，信息熵被创造了出来。你问我有啥用？单纯的一个熵确实发挥不出来威力，我们往后看。