机器学习（八）——学习理论_estimated generalization error-优快云博客

本文链接：https://blog.youkuaiyun.com/a794922102/article/details/90479745

博客围绕机器学习的学习理论展开，介绍了交叉验证中的k - 折交叉验证，通过划分数据集验证模型性能；阐述了特征选择的向前搜索、向后搜索和过滤器特征选择方法；还讲解了贝叶斯统计和正则化，包括完全贝叶斯预测及实际应用中的近似估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

8.学习理论

1.交叉验证

k-折交叉验证

将数据集划分为k份，每次选取一份作为测试数据，其他的为训练数据。重复k次。计算每次错误的平均值。以此验证模型的性能。

随机将训练集 $S$ 切分成 $k$ 个不相交的子集。其中每一个子集的规模为 $m / k$ 个训练样本。这些子集为 $S_1,\cdots,S_k$
对每个模型 $M_i$ ，我们都按照下面的步骤进行评估(evaluate):

对 $j=1,\cdots,k$
- 在 $S_1\cup\cdots\cup S_{j-1}\cup S_{j+1}\cup\cdots\cup S_k$ (也就是除了 $S_j$ 之外的其他数据)，对模型 $M_i$ 得到假设 $h_{ij}$ 。接下来针对 $S_j$ 使用假设 $h_{ij}$ 进行测试，得到经验误差 $\hat\epsilon_{S_{cv}}(h_{ij})$
  
  对 $\hat\epsilon_{S_{cv}}(h_{ij})$ 取平均值，计算得到的值就当作是模型 $M_i$ 的估计泛化误差（estimated generalization error）
选择具有最小估计泛化误差(lowest estimated generalization error)的模型 $M_i$ 的，然后在整个训练样本集 $S$ 上重新训练该模型。这样得到的假设 (hypothesis)就可以输出作为最终结果了。

2.特征选择

向前搜索

初始化一个集合为空集 $\mathcal F=\emptyset$
循环下面的过程{

(a) 对于 $i=1,\cdots,n$ 如果 $i\notin \mathcal F$ ，则令 $\mathcal F_i=\mathcal F\cup \{i\}$ ，然后使用某种交叉验证来评估特征 $\mathcal F_i$

(b) 令 $\mathcal F$ 为(a)中最佳特征子集

}
整个搜索过程中筛选出来了最佳特征子集(best feature subset)，将其输出。

算法的外层循环可以在 $\mathcal F=\{1,\cdots,n\}$ 达到全部特征规模时停止，也可以在 $|\mathcal F|$ 超过某个预先设定的阈值时停止（阈值和你想要算法用到特征数量最大值有关）。

向后搜索

从 $\mathcal F = \{1, ..., n\}$ ，即规模等同于全部特征开始，然后重复，每次删减一个特征，直到 $\mathcal F$ 为空集时终止。

过滤器特征选择

一种思路是使用 $x_i$ 和 $y$ 之间的相关系数的值(或其绝对值)，这可以在训练样本数据中算出。这样我们选出的就是与分类标签(class labels)的关系最密切的特征值(features)。实践中，通常（尤其当特征 $x_i$ 为离散值(discrete-valued features)）选择 $x_i$ 和 $y$ 的互信息( mutual information, ${\rm{MI}}(x_i, y)$ ) 来作为 $S (i)$ 。
${\rm{MI}}(x_i, y)=\sum_{x_i\in\{0, 1\}}\sum_{y\in\{0,1\}}p(x_i,y)\log\frac{p(x_i,y)}{p(x_i)p(y)}$
(上面这个等式假设了 $x_i$ 和 $y$ 都是二值化；更广泛的情况下将会超过变量的范围。)上式中的概率 $p(x_i,y)$ ， $p(x_i)$ 和 $p (y)$ 都可以根据它们在训练集上的经验分布(empirical distributions)而推测(estimated)得到。

要对这个信息量分值的作用有一个更直观的印象，也可以将互信息(mutual information)表达成 $K L$ 散度(Kullback-Leibler divergence，也称 $K L$ 距离，常用来衡量两个概率分布的距离):
${\rm{MI}}(x_i,y)={\rm KL}(p(x_i,y)\,\|\,p(x_i)p(y))$

3.贝叶斯统计和正则化

在本章的开头部分，我们谈到了使用最大似然(maximum likelihood，缩写为 ML)来进行参数拟合，然后根据下面的式子来选择参数:
$\theta_{\rm ML}=\arg \max_{\theta}\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)$
给定一个训练集合 $\{(x^{(i)},y^{(i)})\}^m_{i=1}$ ，
$\begin{aligned} p(S|\theta)&=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)\\ p(S,\theta)&=p(S|\theta)p(\theta)=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)p(\theta)\\ p(S)&=\int_{\theta} {p(S,\theta)}d\theta=\int_{\theta} {\left(\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)p(\theta)\right)}d\theta \end{aligned}$
当我们被要求对一个新的 $x$ 的值进行预测的时候，我们可以计算在参数上的后验分布 (posterior distribution):
$\begin{aligned} p(\theta|S) &=\frac{p(S|\theta)p(\theta)}{p(S)}\\ &=\frac{(\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta))p(\theta)}{\int_{\theta} {\left(\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)p(\theta)\right)}d\theta}\qquad \end{aligned}$
在上面的等式中， $p(y^{i)}|x^{(i)},\theta)$ 来自你所用的机器学习问题中的模型。例如，如果你使用贝叶斯逻辑回归(Bayesian logistic regression)，你可能就会选择 $p(y^{(i)}|x^{(i)},\theta)=h_\theta(x^{(i)})^{y^{(i)}} (1-h_\theta(x^{(i)}))^{(1-y^{(i)})}$ 其中， $h_\theta(x^{(i)})=1/(1+\exp(-\theta^Tx^{(i)}))$ .

若有一个新的测试样本 $x$ ，然后要求我们对这个新样本进行预测，我们可以使用 $\theta$ 上的后验分布(posterior distribution)来计算分类标签(class label)上的后验分布:
$\begin{aligned} p(y|x,S)&=\int_\theta p(y|x,\theta)p(\theta|S)d\theta\qquad \\ \end{aligned}$
在上面这个等式中， $p(\theta|S)$ 来自等式 (1)。例如，如果目标是要根据给定的 $x$ 来预测对应的 $y$ 的值，那就可以输出 $^4$ :

4 如果 $y$ 是一个离散值(discrete-valued)，那么此处的积分(integral)就用求和(summation)来替代。

$E[y|x,S]=\int_y y p(y|x,S)dy$

这里我们简单概述的这个过程，可认为是一种“完全贝叶斯 (fully Bayesian)”预测，其中我们的预测是通过计算相对于 $\theta$ 上的后验概率 $p(\theta|S)$ 的平均值而得出的。然而很不幸，这个后验分布的计算通常是比较困难的。这是因为这个计算需要对 $\theta$ 进行积分(integral)，而 $\theta$ 通常是高维度的(high-dimensional)，这通常是不能以闭合形式 (closed-form)来实现的。

因此在实际应用中，我们都是用一个与 $\theta$ 的后验分布 (posterior distribution)近似的分布来替代。常用的一个近似是把对 $\theta$ 的后验分布（正如等式 $(2)$ 中所示）替换为一个单点估计(single point estimate)。对 $\theta$ 的最大后验估计 (MAP，maximum a posteriori estimate)为:
$\theta_{MAP}=\arg \max_\theta \prod_{i=1}^{m} p(y^{(i)}|x^{(i)})p(\theta)$
注意到了么，这个式子基本和对 $\theta$ 的最大似然估计(ML (maximum likelihood) estimate)是一样的方程，除了末尾多了一个先验概率分布 $p(\theta)$ 。实际应用里面，对先验概率分布 $p(\theta)$ 的常见选择是假设 $\theta\sim N(0 , \tau ^2I)$ 。