模型评价:期望风险、经验风险与结构风险
损失函数: 损失函数是针对单个具体的样本而言的。表示的是模型预测的值与样本真实值之间的差距。记为:
L ( y i , f ( x i ) , ) L(y_i,f(x_i),) L(yi,f(xi),)
其中, y i y_i yi为真实值, f ( x i ) f(x_i) f(xi)为模型的预测值。
经验风险:衡量模型f(X)对训练样本中所有的样本的预测能力,对训练集中的所有样本点损失函数的平均最小化。
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))
Remp=N1∑i=1NL(yi,f(xi))
期望风险:衡量这个模型对所有的样本(包含未知的样本和已知的训练样本)预测能力。
R
e
x
p
(
f
)
=
E
p
[
L
(
Y
,
f
(
X
)
)
]
=
∫
x
,
y
L
(
Y
,
f
(
X
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(f)=E_p[L(Y,f(X))]=\int_{x,y}L(Y,f(X))P(x,y)dxdy
Rexp(f)=Ep[L(Y,f(X))]=∫x,yL(Y,f(X))P(x,y)dxdy
总结:
经验风险是局部的,基于训练集所有样本点损失函数最小化的。
期望风险是全局的,是基于所有样本点的损失函数最小化的。
经验风险函数是现实的,可求的;
期望风险函数是理想化的,不可求的;
结构风险:结构风险是对经验风险和期望风险的折中。在经验风险函数后面加一个正则化项(惩罚项)便是结构风险:
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{emp}=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
Remp=N1∑i=1NL(yi,f(xi))+λJ(f)
相比于经验风险,结构风险多了一个惩罚项,其中是一个lamada是一个大于0的系数。J(f)表示的是是模型f的复杂度。
结构风险可以这么理解:
经验风险越小,模型决策函数越复杂,其包含的参数越多,当经验风险函数小到一定程度就出现了过拟合现象。也可以理解为模型决策函数的复杂程度是过拟合的必要条件,那么我们要想防止过拟合现象的方式,就要破坏这个必要条件,即降低决策函数的复杂度。也即,让惩罚项J(f)最小化,现在出现两个需要最小化的函数了。我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化,一个简单的办法把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化。