一、交叉熵损失函数原理
1.信息量
信息的定义是用来消除随机不确定性的东西。也就是说衡量信息的大小是看信息消除不确定性东西的程度。信息量的大小与信息发生的概率成反比。
设某一时间发生的概率为P(x),其信息量表示为:
I ( x ) = − l o g ( P ( x ) ) I(x)=-log(P(x)) I(x)=−log(P(x))
其中 I ( x ) I(x) I(x)表示信息量,这里 l o g log log表示以e为底的自然对数。
2.交叉熵
信息熵:也称为熵,用来表示所有信息量的期望。
期望是试验中每次可能结果的概率乘以其结果的总和。
信息熵可以表示为(这里的 X X X是一个离散型随机变量):
H ( X ) = − ∑ i = 1 n P ( x i ) l o g ( P ( x i ) ) ( X = x 1 , x 2 , x 3 . . . , x n ) H(X)=-\sum_{i=1}^n P(x_i)log(P(x_i)) (X=x_1,x_2,x_3...,x_n) H(X)=−i=1∑nP(xi)log(P(xi))(X=x1,x2,x
交叉熵与FocalLoss详解

本文深入解析交叉熵损失函数原理,包括信息量、信息熵、相对熵(KL散度)的概念及其在机器学习中的应用。同时,详细介绍了FocalLoss函数,探讨其如何通过调整易分类和难分类样本的权重,以及引入平衡因子解决类别不平衡问题,提高模型对难分类样本的关注。
最低0.47元/天 解锁文章
545

被折叠的 条评论
为什么被折叠?



