1.单分类损失Sigmoid:
其导数可以用自身替换:
2.多分类损失函数softmax:
3.信息熵:
信息论之父劳德.香农给出信息熵的定义:
1.单调性,发生概率越高的事件,其携带的信息量越低。
2.非负性,信息熵可以看做一种广度度量,非负性是一种合理的必然。
3.累加性,即多随机事件同时发生存在的总不确定的度量是可以表示为各事件不确定性的度量的总和,也是一种广度量的一种体现。
假设有三种水果:水果A,水果B,水果C。小明吃三种水果的概率分别0.5,0.2,0.3。则小明对于三种水果选择概率分布L的信息熵为:
假设对于另外三种水果:水果D,水果E,水果F。小明吃三种水果的概率的分别为0.8,0.1,0.1。小明对于三种水果选择概率分布M的信息熵为:
故可以看出信息分布M的信息熵要小一些
4.KL散度:
可以看出,KL散度=交叉熵-信息熵
5.交叉熵:
假如对目标A,B,C的预测值分别是0.3,0.6,0.1,而实际值是1,0,0。则求的交叉熵为:
假如预测值为0.8,0.16,0.04。则求的交叉熵为:
6.Focal Loss
在进行损失累加时,正负样本不均衡会导致在计算正负样本的时候,正样本的损失主导损失,或者负样本的损失主导损失,这样对于目标的回归都是不利的。所以为了避免这样的问题,引入了调节因子。