有关神经网络损失的笔记

小夏有点慌

于 2023-08-05 18:36:11 发布

阅读量132

点赞数

文章标签：神经网络笔记机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41952834/article/details/132116261

版权

本文介绍了Sigmoid和softmax作为分类损失函数的基本概念，探讨了信息熵的定义及其性质，包括单调性、非负性和累加性。此外，文章还涉及KL散度和交叉熵，以及在处理数据不平衡时引入的FocalLoss，以解决正负样本不平衡问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.单分类损失Sigmoid:

$S(x)=\frac{1}{1+e^{-x}}$

其导数可以用自身替换：

${S}'=\frac{e^{-x}}{(1+e^{-x})^{2}}=S(x)(1-S(x))$

2.多分类损失函数softmax:

$y_i=\frac{e^{f_i}}{\sum_{n} e^{f_n}}$

3.信息熵：

信息论之父劳德.香农给出信息熵的定义：

1.单调性，发生概率越高的事件，其携带的信息量越低。

2.非负性，信息熵可以看做一种广度度量，非负性是一种合理的必然。

3.累加性，即多随机事件同时发生存在的总不确定的度量是可以表示为各事件不确定性的度量的总和，也是一种广度量的一种体现。

$H(x)=-\sum_{x \in \chi }p(x)log(p(x))$

假设有三种水果：水果A，水果B，水果C。小明吃三种水果的概率分别0.5,0.2,0.3。则小明对于三种水果选择概率分布L的信息熵为：

$H(L) = -0.5log(0.5)-0.3log(0.3)-0.2log(0.2) \\ ~~~~~~~~=0.1505 +0.1568+0.1397\\~~~~~~~~ =0.4470$

假设对于另外三种水果：水果D，水果E，水果F。小明吃三种水果的概率的分别为0.8，0.1，0.1。小明对于三种水果选择概率分布M的信息熵为：

$H(M) = -0.8log0.8-0.1log0.1-0.1log0.1 \\~~~~~~~~~= 0.0775+0.1+0.1 \\~~~~~~~~~= 0.2775$

故可以看出信息分布M的信息熵要小一些

4.KL散度：

$D(p\left | \right |q)=\sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(xi)})\\~~~~~~~~~~~~=\sum_{i=1}^{n}p(x_i)logp(x_i)-\sum_{i=1}^{n}p(x_i)logq(x_i)\\~~~~~~~~~~~~=-\sum_{i=1}^{n}p(x_i)logq(x_i)-(-\sum_{i=1}^{n}p(x_i)logp(x_i))\\~~~~~~~~~~~~=H(P,Q)-H(P)$

可以看出，KL散度=交叉熵-信息熵

5.交叉熵：

$H(P,Q)=\sum_{i=1}^{n}p(x_i)logp(x_i)$

假如对目标A，B，C的预测值分别是0.3，0.6，0.1，而实际值是1，0，0。则求的交叉熵为：

$H(P,Q)= -(1*log(0.3) + 0*log(0.6) + 0*log(0.1))\\~~~~~~~~~~~~=0.5228$

假如预测值为0.8，0.16，0.04。则求的交叉熵为：

$H(P,Q)=-(1*log0.8 + 0*log0.16+0*log0.04) \\~~~~~~~~~~~~=0.0969$

6.Focal Loss

$FL(P) =\left\{\begin{aligned} - \alpha (1-p)^\gamma log(p) ~~~~~if~~y=1\\ -(1-\alpha )p^\gamma log(1-p)~~~otherwise \end{aligned}\right.$

在进行损失累加时，正负样本不均衡会导致在计算正负样本的时候，正样本的损失主导损失，或者负样本的损失主导损失，这样对于目标的回归都是不利的。所以为了避免这样的问题，引入了调节因子。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。