1.交叉熵的定义
2.交叉熵与信息熵、KL散度的关系
信息熵是用来衡量不确定性的。
信息量的定义:不确定性越大,所包含的信息量越大;不确定性越小,所包含的信息量
定义:为一个随机分布,
,当
时,所包含的信息量为
根据概率分布的性质,,所以
, 当且仅当
时,
;且
越大,
越小
信息熵可以看作是一个概率分布信息量的期望,
KL散度(相对熵)是用来衡量两个分布之间的差异,也可以认为是从分布p到到分布q信息增益的期望值:
可以证明:(需要用到对数和不等式)
当两个分布完全相同时,KL散度为0;两个分布越相近,KL散度越小。
并且KL散度是不对称的,可以认为是参照系的差别。
根据KL散度的定义可以推导出交叉熵、信息熵以及KL散度三者的关系,将KL散度的定义展开:
分解之后,第一项就是负的信息熵,后面一项就是p,q的交叉熵
用分布Q去拟合分布P时,P的信息熵不变,因此交叉熵与KL散度等价,所以可以用交叉熵来衡量P、Q的差异
3.使用交叉熵为LOSS FUNCTION
在分类问题中经常使用交叉熵作为Loss Function,在分类问题中,可以把需要拟合的数据看作是多项贝努力分布
对于一个数据:
其中为类别的集合;
在二分类问题中,数据可以看成一个标准的贝努力分布(01分布)
如果是softmax或者sigmoid出来的结果
在训练时,每一次只计算了ground truth类对应的label,没有训练其他的类。
4.交叉熵与最大似然
Loss Function List: