- 介绍损失函数之前首先介绍两种风险:经验风险和结构风险
1) 经验风险最小化的策略认为,根据已知样本,求得误差最小的模型最优,即经验风险最小的模型就是最优的模型。(经验风险最小能保证模型在训练集上取得较好的效果,但当训练集较小时,训练集不能代表全体样本,从而导致模型泛化能力差),通常形式为:其中f(x)为预测结果,y为实际结果
2) 经验风险函数常用的有以下几种:
-
a. 0-1损失函数(0-1 loss function)
L (Y ,f (X ))=0, Y ≠f (X )
1, Y =f (X )
b. 平方损失函数(quadratic loss function) 对应算法:大部分使用mse评价的算法L (Y ,f (X ))=(Y–f(X))²c.绝对损失函数(absolute loss function)
L (Y ,f (X ))=|Y −f (X )|d. 对数损失函数(logarithmic loss function)或对数似然损失函数 对应算法:逻辑回归
L (Y ,P(Y |X ))=–l ogP(Y |X )e. 指数损失函数 对应算法:adboost
exp(-yf(x) ) 指数损失函数是0,1损失函数的变形
f. hinge loss 对应算法:svm|(y)=max (0,1−t ⋅y)|
其含义为,y的值在-1到1之间就可以了,并不鼓励 |y|>1 ,即并不鼓励分类器过度自信,让某个可以正确分类的样本距离分割线的距离超过1并不会有任何奖励。从而使得分类器可以更专注整体的分类误差
3) 结构风险最小化:结构风险在经验风险上加上表示模型复杂度的正则化项或罚项,即模型越复杂结构风险越大,从而保证模型不容易过拟合,通常形式为:其中λ为惩罚系数
2. 损失函数(loss function)则是用来评估模型的预测值f(x)与真实值Y的不一致程度,损失函数越小,模型的鲁棒性就越好。通常为了保证模型的误差尽可能小同时模型复杂度尽可能低,损 失函数就包含了经验风险项和结构风险(正则化项),通常可以表示成如下式子:
