学习理论-模型选择-3-模型训练规则、特征选择

最新推荐文章于 2025-02-17 07:00:00 发布

原创最新推荐文章于 2025-02-17 07:00:00 发布 · 3k 阅读

2 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

34 篇文章

订阅专栏

打基础

33 篇文章

订阅专栏

参考 http://www.cnblogs.com/jerrylead

假设可选的模型集合是 $\mathcal M=\{ M_1,M_2,...,M_d\}$ ,它可能包含了 SVM、logistic回归、神经网络等模型。
在上一篇中我们已经知道，我们要选择使得泛化误差 $\epsilon(\hat h)$ 最小的模型，这时为了选择模型，我们可能会想到如下方法：
1、用训练样本去训练 $\mathcal M$ 中的每一个模型，之后便可以的到每个模型的 $\epsilon(\hat h)$ 。
2、选取使得 $\epsilon(\hat h)$ 最小的模型。
很容易理解，但是却很不靠谱，我们把所有的样本都拿来训练，没有留下任何样本用来测试必然会导致训练结果有很低的偏差，但却有很高的方差。因为这样做，模型中多项式的指数越大必然训练误差越小，因此我们要留下一部分样本用来测试，既要保证偏差合理也要保证方差合理。

交叉验证(Cross validation)

简单交叉验证(hold-out cross validation)：
1、从全部的训练数据 $S$ 中随机选择 $70\%$ 的样例作为训练集 $S_{train}$ ，剩余的 $30\%$ 作为测试集 $S_{CV}$ , $S{_CV}$ 称为交叉验证集。
2、用 $S_{train}$ 去训练 $\mathcal M$ 中的每个模型 $M_i$ ,得到对应的 $h_i$
3、用 $S_CV$ 在每个模型 $h_i$ 上做测试，选择具有最小经验错误 $\hat \epsilon S_{CV}(h_i)$ 的 $h_i$ 作为最佳模型。

简单交叉验证虽然可行，但是训练模型时只是用了 $70\%$ 的样本，虽然我们也可以用 $80\%$ 等等，但是，显然训练一个模型时，样本的数量越多越好；另外，当样本总数很少时，我们就更不希望在分出一部分用来做验证。下面来看看另一种方法：
k-折叠交叉验证(k-fold cross validation):
1、将全部训练集 $S$ 分成 $k$ ( $k$ 一般可以取值为10)个不相交的子集，假设 $S$ 中的训练样例个数为 $m$ ，那么每一个子集有 $\frac{m}{k}$ 个训练样例，相应的子集称作 $\{S_1,S_2, … , S_k\}$ 。
2、按照如下方式训练每个模型:

For j = 1, . . . , k
    Train the model Mi on S1 ∪ · · · ∪ Sj−1 ∪ Sj+1 ∪ · · · Sk (i.e., train on all the data except Sj) to get some hypothesis hij
    Test the hypothesis hij on Sj, to get ε ˆSj(hij)

模型 $M_i$ 的泛化误差用该在模型训练得到的所有 $h_{ij}$ 的误差均值来表示即: $\frac{1}{m}\sum_{j=1}^k\hat \epsilon_{S_j}(h_{ij})$ .
3、选出平均经验错误率最小的 $M_i$ ，然后使用全部的 $S$ 再次在模型 $M_i$ 上训练，得到最终的 $h_i$ 。

说白了，这个方法就是将简单
交叉验证的测试集改为 $1/k$ ，每个模型训练 $k$ 次，测试 $k$ 次，错误率为 $k$ 次的平均。一般讲 $k$ 取值为 $10$ 。这样数据稀疏时基本上也能进行。显然，缺点就是训练和测试次数过多，代价比较大。
极端情况下， $k$ 可以取值为 $m$ ，意味着每次留一个样例做测试，这个称为 leave-one-out cross validation。

如果我们发明了一种新的学习模型或者算法，那么可以使用交叉验证来对模型进行评价。

特征选择

特征选择是模型选择中很重要的一部分，我们要根据样本的特性来确定什么模型更加适合。
但是有时候，样本的属性n会特别多远远大于样本的数量m $(n\gg m)$ ，这种情况下经常会有很多兀余属性，我们训练模型时并不需要他们。因为如果考虑的属性过多，必然导致模型更加复杂，但是在上述情况下其实我们可以只用更简单的模型，同样可以很好的对样本分类（即在上述简单模型和复杂模型下的VC维是相同的）。此时如果不进行适当的特质选择必然导致数据过拟合，产生高方差。

假如样本中有n个属性，即样本是n维的，如果我们利用枚举法，那么就会有 $2^n$ 种组合，当n稍微大点时这条路就走不通了。下面给出一些启发式方法：

前向搜索(forward search):

1、初始化特征集 $\mathcal F$ 为空
2、

Repeat {
(a) For i = 1, . . . , n if i 6∈ F, let Fi = F ∪ {i}, and use some version of cross validation to evaluate features Fi. (I.e., train your learning algorithm using only the features in Fi, and estimate its generalization error.)
(b) Set F to be the best feature subset found on step (a).
}

3、从上步中得到的 $n$ 个 $F_i$ 中选出错误率最小的 $F_i$ 作为属性输出。

前向搜索属于 wrapper model feature selection。 Wrapper 这里指不断地使用不同的特征集来测试学习算法。前向搜索说白了就是每次增量地从剩余未选中的特征中选出一个加入特征集中，待达到阈值或者 n 时，从所有的 F 中选出错误率最小的。

前向搜索每次将 $\mathcal F$ 中的属性个数加1，其实我们完全可以按照相反的思路：开始时将 $\mathcal F$ 初始化为包含样本所有属性的集合，然后逐次减去一个属性进行比较，选取最合适的属性集，即后向搜索(backward search)。

这两种算法都可以很好的工作，但是计算复杂度比较大。时间复杂度为 $O(n + (n − 1) +(n − 2)+ ⋯ + 1) = O(n^2)$ .

过滤特征选择(Filter feature selection):

过滤特征选择是依据启发式规则的，它的计算代价相对前一种方法而言小了很多。
过滤特征选择方法的想法是针对每一个特征 $x_i$ ,计算 $x_i$ 相对于类别标签 $y$ 的信息量 $S(i)$ ,它反映了属性 $x_i$ 的重要程度，之后我们将属性按照重要程度排序，利用交叉验证法中的前向搜索法确定最终特征集。显然，这样复杂度大大降低，为 $O(n)$ 。
某个属性 $x_i$ 的重要程度就是指它与类别之前的关联度，我们使用相互信息(mutual information)来衡量 $S(i)$ ， $x_i与y$ 的相互信息 $MI(x_i,y)$ 表示如下：
这里写图片描述
上式是假设 $x_i和y$ 都是二值的{0,1},对于多值情况可以直接推广。
公式里的 $p(x_i,y),p(x_i)和p(y)$ 都可以直接由训练样本统计得到。

上式来源于信息论中的用以衡量不同概率分布之前的差异的标准——（Kullback-Leibler）KL距离：
这里写图片描述
它反映了 $p(x_i,y)即x_i与y$ 的联合(joint)概率与后面相乘的 $p(x_i)p(y)$ 之间的关联度.
如果 $p(x_i)、p(y)$ 是相互独立的，那么 $p(x_i,y)与p(x_i)p(y)$ 相等，它们是相同的分布，此时KL距离为0，即MI值为0；相反，如果两者密切相关，那么MI 值会很大。