有关神经网络损失的笔记

本文介绍了Sigmoid和softmax作为分类损失函数的基本概念,探讨了信息熵的定义及其性质,包括单调性、非负性和累加性。此外,文章还涉及KL散度和交叉熵,以及在处理数据不平衡时引入的FocalLoss,以解决正负样本不平衡问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.单分类损失Sigmoid:

S(x)=\frac{1}{1+e^{-x}}        

         其导数可以用自身替换:

{S}'=\frac{e^{-x}}{(1+e^{-x})^{2}}=S(x)(1-S(x))

2.多分类损失函数softmax:

         

y_i=\frac{e^{f_i}}{\sum_{n} e^{f_n}}

3.信息熵:

        信息论之父劳德.香农给出信息熵的定义:

        1.单调性,发生概率越高的事件,其携带的信息量越低。

        2.非负性,信息熵可以看做一种广度度量,非负性是一种合理的必然。

        3.累加性,即多随机事件同时发生存在的总不确定的度量是可以表示为各事件不确定性的度量的总和,也是一种广度量的一种体现。

H(x)=-\sum_{x \in \chi }p(x)log(p(x))

假设有三种水果:水果A,水果B,水果C。小明吃三种水果的概率分别0.5,0.2,0.3。则小明对于三种水果选择概率分布L的信息熵为:

H(L) = -0.5log(0.5)-0.3log(0.3)-0.2log(0.2) \\ ~~~~~~~~=0.1505 +0.1568+0.1397\\~~~~~~~~ =0.4470

假设对于另外三种水果:水果D,水果E,水果F。小明吃三种水果的概率的分别为0.8,0.1,0.1。小明对于三种水果选择概率分布M的信息熵为:

H(M) = -0.8log0.8-0.1log0.1-0.1log0.1 \\~~~~~~~~~= 0.0775+0.1+0.1 \\~~~~~~~~~= 0.2775

故可以看出信息分布M的信息熵要小一些

4.KL散度:

D(p\left | \right |q)=\sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(xi)})\\~~~~~~~~~~~~=\sum_{i=1}^{n}p(x_i)logp(x_i)-\sum_{i=1}^{n}p(x_i)logq(x_i)\\~~~~~~~~~~~~=-\sum_{i=1}^{n}p(x_i)logq(x_i)-(-\sum_{i=1}^{n}p(x_i)logp(x_i))\\~~~~~~~~~~~~=H(P,Q)-H(P)

可以看出,KL散度=交叉熵-信息熵

5.交叉熵:

H(P,Q)=\sum_{i=1}^{n}p(x_i)logp(x_i)

假如对目标A,B,C的预测值分别是0.3,0.6,0.1,而实际值是1,0,0。则求的交叉熵为:

H(P,Q)= -(1*log(0.3) + 0*log(0.6) + 0*log(0.1))\\~~~~~~~~~~~~=0.5228

假如预测值为0.8,0.16,0.04。则求的交叉熵为:

H(P,Q)=-(1*log0.8 + 0*log0.16+0*log0.04) \\~~~~~~~~~~~~=0.0969

6.Focal Loss 

FL(P) =\left\{\begin{aligned} - \alpha (1-p)^\gamma log(p) ~~~~~if~~y=1\\ -(1-\alpha )p^\gamma log(1-p)~~~otherwise \end{aligned}\right.

在进行损失累加时,正负样本不均衡会导致在计算正负样本的时候,正样本的损失主导损失,或者负样本的损失主导损失,这样对于目标的回归都是不利的。所以为了避免这样的问题,引入了调节因子。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值