分类问题为什么要用交叉熵

原创

已于 2023-09-17 12:45:26 修改 · 5k 阅读

·

12

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #深度学习 #信息熵

于 2020-09-01 18:14:23 首次发布

本文探讨了在分类问题中使用交叉熵损失函数而非均方误差的原因。信息熵和相对熵（KL散度）的概念被引入，解释了交叉熵是衡量概率分布差异的有效方式。由于信息熵在实际应用中为固定值，优化相对熵等同于优化交叉熵。均方误差在梯度下降时，由于sigmoid导数的影响，可能导致参数更新缓慢，而交叉熵则避免了这个问题，因此在分类任务中更优。

一提到分类，大家想到的损失函数就是交叉熵，但是有没有想过为什么分类问题要用交叉熵损失，为什么不用均方误差损失呢？本文将详细介绍交叉熵的由来，并分析为什么不使用均方误差。

文章目录

1. 信息熵
2. 相对熵（KL散度）
3. 交叉熵
4.为什么使用交叉熵而不适用均方误差
5. 总结
reference

🤗欢迎关注公众号 funNLPer🤗

1. 信息熵

信息熵就是信息的不确定程度，信息熵越小，信息越确定
$信息熵=\sum 事件x发生的概率*验证事件x需要的信息量$

事件发生的概率越低，需要越多的信息去验证，所以验证真假需要的信息量和事件发生的概率成反比，假设信息量为 $I (x)$
$-log\, p(x)$

其中负号是用来保证信息量是正数或者零， $p (x)$ 是事件 $x$ 发生的概率， $I (x)$ 也被称为随机变量 $x $的自信息 (self-information)，描述的是随机变量的某个事件发生所带来的信息量

信息熵即所有信息量的期望
$H(X)=-\sum_{x} p(x) \log (p(x))=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)$

其中 $n$ 为事件的所有可能性

2. 相对熵（KL散度）

相对熵又称KL散度，如果对于同一个随机变量 $x$ 有两个单独的概率分布 $p (x)$ 和 $q (x)$ ，可以使用相对熵来衡量这两个分布的差异。

$D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)$

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。