统计学习概论(二)
模型评估与模型选择(二)
前面接受了进行模型评估和选择会涉及到一些概念,这里我们介绍一些评估选择的方法。
正则化
模型选择的典型方法是正则化,正则化也是结构风险最小化策略的实现。在说明正则化之前,首先要提到奥卡姆剃刀原理,因为正则化是符合这个原理的。
奥卡姆剃刀原理:“如无必要,勿增实体”,即“简单有效原理”。
放在模型选择中也就是说在所有可能选择的模型中,应该选择既能很好地解释已知数据又是十分简单的模型。
前面已经介绍过加入正则化后的经验风险(结构风险),一般形式如下:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right) + \lambda J\left( f \right)}
f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
其中第一项为经验风险,第二项为正则化项。
正则化的其他形式(在回归问题中,损失函数是平方损失,正则化项可以是参数向量的范数):
-
L
2
L_2
L2范数:
L
(
w
)
=
1
N
∑
i
=
1
N
(
f
(
x
i
;
w
)
−
y
i
)
2
+
λ
2
∥
w
∥
2
L\left( w \right) = \frac{1}{N}\sum\limits_{i = 1}^N {{{\left( {f\left( {{x_i};w} \right) - {y_i}} \right)}^2}} + \frac{\lambda }{2}{\left\| w \right\|^2}
L(w)=N1i=1∑N(f(xi;w)−yi)2+2λ∥w∥2
其中 w w w表示参数向量, ∥ w ∥ \left\| w \right\| ∥w∥表示其 L 2 L_2 L2范数。式子前半部分计算的仍然是经验风险。 - L 1 L_1 L1范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ 2 ∥ w ∥ 1 L\left( w \right) = \frac{1}{N}\sum\limits_{i = 1}^N {{{\left( {f\left( {{x_i};w} \right) - {y_i}} \right)}^2}} + \frac{\lambda }{2}{\left\| w \right\|_1} L(w)=N1i=1∑N(f(xi;w)−yi)2+2λ∥w∥1
留出法、交叉验证与自助法
这几种都是通过实验测试对模型进行评估与选择的。
需要注意的是:测试集应该与训练集互斥。
- 留出法
直接将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集。- 注意点
- 划分应尽可能保证数据分布的一致性;
- 确定划分的比例后仍会存在多种划分方式,因此需要使用若干次随即划分、重复实验取均值。
- 存在的问题
- 训练集与测试集的划分比例不好确定,一般使用 2 / 3 ∼ 4 / 5 2/3\sim 4/5 2/3∼4/5。
- 注意点
- 交叉验证法
将数据集划分为 k k k个大小相似的互斥子集,并尽可能保证数据分布的一致性。每次选择其中 k − 1 k-1 k−1作为训练集,剩下的一个作为测试集,进行 k k k次。- 注意点
- 与留出法类似,也需要进行多次随机划分,常见的有“10次10折交叉验证”
- 存在的问题
- 高昂的计算开销。
- 注意点
- 自助法
以自助采样法为基础,从总样本( m m m个)中有重复地抽取 m m m次构成训练集,显然总样本中有一部分样本不会出现在训练集中,将这些样本(约占总样本的 36.8 % 36.8\% 36.8%)作为测试集。- 注意点
- 数据集较小、难以有效划分数据时很有用。
- 对集成学习方法有很大好处。
- 存在的问题
- 改变了数据集分布,会引入估计偏差。
- 注意点
一个简单的分析(36.8%的由来):
每个样本每次被选中地可能性是1/m;
不配选中的可能性则是(1-1/m);
m次都未被选到则是(1-1/m)^m;
当m的值趋近于无穷时,这个值约等于0.368。
泛化能力
学习方法的泛化能力指的是有该方法学习到的模型对未知数据的预测能力。
泛化误差
假设学得的模型为
f
^
\hat f
f^,则该模型对未知数据预测的误差即为泛化误差:
R
exp
(
f
^
)
=
E
P
[
L
(
Y
,
f
^
(
X
)
)
]
=
∫
X
×
Y
L
(
Y
,
f
^
(
X
)
)
P
(
x
,
y
)
d
x
d
y
{R_{\exp }}\left( {\hat f} \right) = {E_P}\left[ {L\left( {Y,\hat f\left( X \right)} \right)} \right] = \int_{\mathcal{X} \times \mathcal{Y}} {L\left( {Y,\hat f\left( X \right)} \right)P\left( {x,y} \right)dxdy}
Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(Y,f^(X))P(x,y)dxdy
泛化误差上界
- 存在的性质
- 为样本数量的函数,随其增大上界趋近于 0 0 0
- 为假设空间容量的函数,假设空间越大,泛化误差上界越大
- 以二分类且假设空间有限的问题为例
对二分类问题,当假设空间容量为 d d d,训练集样本数量为 N N N时,对于任意 f ∈ F f\in \mathcal{F} f∈F,至少以 1 − δ 1-\delta 1−δ的概率,存在下式
R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R\left( f \right) \le \hat R\left( f \right) + \varepsilon \left( {d,N,\delta } \right) R(f)≤R^(f)+ε(d,N,δ)
其中 R ( f ) = E [ L ( Y , f ( X ) ) ] R\left( f \right) = E\left[ {L\left( {Y,f\left( X \right)} \right)} \right] R(f)=E[L(Y,f(X))]为期望风险, R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \hat R\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} R^(f)=N1i=1∑NL(yi,f(xi))为经验风险, ε ( d , N , δ ) = 1 2 N ( log d + log 1 δ ) \varepsilon \left( {d,N,\delta } \right) = \sqrt {\frac{1}{{2N}}\left( {\log d + \log \frac{1}{\delta }} \right)} ε(d,N,δ)=2N1(logd+logδ1)。
生成模型与判别模型
生成模型
由数据学习联合概率分布
P
(
X
,
Y
)
P\left( {X,Y} \right)
P(X,Y),然后求出条件概率分布
P
(
Y
∣
X
)
P\left( {Y\left| X \right.} \right)
P(Y∣X)作为预测模型,即生成模型
P
(
Y
∣
X
)
=
P
(
X
,
Y
)
P
(
X
)
P\left( {Y\left| X \right.} \right) = \frac{{P\left( {X,Y} \right)}}{{P\left( X \right)}}
P(Y∣X)=P(X)P(X,Y)
- 特点:
- 模型表示了给定输入 X X X产出输出 Y Y Y的生成关系。
- 可以还原出联合概率分布。
- 学习收敛速度快。
- 存在隐变量,仍可使生成方法产生生成模型。
- 典型模型:朴素贝叶斯、隐马尔科夫模型
判别模型
直接学习决策函数 f ( X ) f\left( X \right) f(X)或条件概率分布 P ( Y ∣ X ) P\left( {Y\left| X \right.} \right) P(Y∣X)作为预测的模型。
- 特点
- 直接学习 f ( X ) f\left( X \right) f(X),直面预测,往往准确率更高。
- 可对数据进行各种程度上的抽象、定义特征并使用特征,可以简化问题。
- 典型模型: k k k近邻、SVM、决策树、逻辑回归、最大熵模型、感知机、提升方法、条件随机场等。
主要问题
分类问题
对新的样本进行划分,将其标记为某一类别。此时,输出变量 Y Y Y为有限个离散值。
- 评价分类问题的指标
- 准确率:分类正确样本数占总样本数的比例
- 二分类指标
- 准确率(查准率): P = T P T P + F P P = \frac{{TP}}{{TP + FP}} P=TP+FPTP
- 召回率(查全率): R = T P T P + F N R = \frac{{TP}}{{TP + FN}} R=TP+FNTP
- P-R图
- 特点
- 直观反映查全率和查准率之间的特点
- 若一个模型的R-P图完全被另一个模型的所“包住”,则后者性能由于前者
- 特点
- F 1 F_1 F1值: F 1 = 2 T P 2 T P + F P + F N F_1 = \frac{{2TP}}{{2TP + FP+FN}} F1=2TP+FP+FN2TP
- F β {F_\beta } Fβ值: F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R {F_\beta } = \frac{{\left( {1 + {\beta ^2}} \right) \times P \times R}}{{\left( {{\beta ^2} \times P} \right) + R}} Fβ=(β2×P)+R(1+β2)×P×R,之中 β \beta β为对查全率和查准率的偏好, > 1 >1 >1查全率影响大, < 1 <1 <1查准率影响大。
标注问题
标注问题是分类问题的推广,其输入为一个观测序列,输出为标记序列或状态序列。
回归问题
回归问题是预测输入值与输出值之间的关系,主要分为线性回归和非线性回归。
最常使用的损失函数:平方损失函数
求解:可采用最小二乘法