均方误差与平均绝对误差
均方误差: 平均绝对误差:
- 相对于MAE计算损失,MSE对异常点赋更大的权重。MSE寻找平均值,MAE寻找是中位数,对异常点而言,中位数比平均值更鲁棒性
- MAE更新梯度始终相同,很小损失值也具有较大梯度,解决方法是降低损失同时降低学习率
- MSE使用固定学习率也可以收敛,其梯度与损失值成正比
- 若需要异常点检测,选用MSE,如果把异常点当作受损函数,则用MAE
- L1损失函数不连续,求解效率低;L2对异常点敏感,但可以得到更稳定的封闭解
Huber损失
对数据中的异常点没有平方误差那么敏感,在0处可微,在之间等价MSE,在
,为MAE
可能需要不断调整的值
交叉熵
信息量:x事件概率为p(x), 其对应的信息量为
- 小明考试及格率p(x)=0.1,信息量
,小明及格可能性低,如果及格,引入较大信息量
- 小红考试及格率p(x)=0.999,信息量
,小红成绩稳定,所以及格时,没有太多信息量
熵:熵是信息量的期望值,是事件确定型的度量标准。
小明的熵:,小红的熵:
。(小明的不确定性低,十有九次不及格;但是小红更低,假设有另外一个同学的及格率为0.5,熵为1,有很大不确定性)
相对熵
又称KL散度,两个随机分布之间的距离度量:
上述公式两层意义:
- 度量当真实分布为p时,假设分布q的无效性
- 在真实分布为p时,使用假设分布q进行编码,相对于使用真实分布p进行编码所多出来的比特数
交叉熵:分布p、q已知:当真实分布p已知,H(p)为常数,此时交叉熵和KL距离在行为上等价,反映p与q相似度,当p=q时取得最小值。
假设p:真实的服从0-1分布,q:带估计的服从0-1分布:
多分类中一个样本交叉熵:(一个样本中属于第个类别的损失,只有
情况下才计算)
分类任务中为什么使用交叉熵,而不是均方差损失函数?
用MES计算分类问题的损失函数,loss曲线是波动的,有很多局极点,是非凸优化问题,而交叉熵为凸优化问题。