模型评估与选择

原创已于 2023-01-29 18:53:56 修改 · 389 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

于 2023-01-01 17:24:18 首次发布

机器学习专栏收录该内容

4 篇文章

订阅专栏

文章探讨了机器学习中模型训练的经验误差与过拟合问题，介绍了评估模型性能的方法，如留出法、交叉验证法和自助法。此外，还讨论了查准率、查全率、ROC曲线等性能度量标准，以及如何通过二项检验和t检验比较模型性能。文章最后提到了多分类学习的策略和处理类别不均衡问题的技巧。

1.1经验误差与过拟合

分类错误的样本数占总样本数的比例称为：错误率，而把通常叫做的准确率的称为：精度。精度+错误率=1。

同时我们把学习器的实际预测输出与样本的真实输出之间的差异称为：误差，学习器在训练集上的误差称为经验误差或者训练误差，而在新样本上的误差叫做泛化误差。我们建立模型并选择各种模型是为使得泛化误差最小。

但是我们有时我们得到的模型的经验误差很小，学习器把样本数据学习的过于完美了把样本数据的一些特点当做总体数据的样本，认为所有数据都有这个特点那么就使得泛化误差增大，泛化性能下降了，这个现象就是所谓的过拟合。和过拟合相对的是欠拟合，指的是对样本的一般特性都没学习好。

欠拟合现象只需要增强模型的学习能力即可，但是过拟合现象是无法彻底避免的。

我们选择有最小泛化误差的模型，但是我们不能直接得到泛化误差，如果使用训练误差最小这又会出现过拟合现象，因此这明显是不合适的。所以我们针对数据集进行了处理。

1.2评估方法

我们通过实验测试来对学习器的泛化误差进行评估并且进行选择，因此我们需要使用一个测试集来测试学习器对新样本的判别能力。

对于测试集应该尽可能的与训练集互斥，测试样本最大可能的不在训练样本中出现，未在训练样本中使用。通常我们在学习或者比赛时我们只会获得一个数据集，但是我们对于这一个数据集既要训练又要测试：因此我们通常把这一个数据集划分出两个部分————训练集和测试集。

1.2.1划分方法（为了评估模型的性能）

一：留出法

直接将数据集D划分为两个互斥的集合，其中一个集合做训练集S，另一个做测试集T。我们在S上训练出模型，在T上去测试，作为对泛化误差的估计。

要求：1：测试集和训练集的划分要尽可能的保持数据分布的一致性，可以理解为分层抽样。

通常单次使用留出法得到的结果往往不够稳定可靠，所以一般会多次划分，重复实验取平均值。一般使用留出法会将 $\frac{2}{3}\sim \frac{4}{5}$ 的样本用于训练，剩余的用于测试。

二：交叉验证法

把数据D划分为k个大小相似的互斥子集，每个子集都要尽可能地保持数据分布的一致性（通过分层抽样取得）。然后每次使用k-1个子集做训练集，剩下那个子集作为测试集。这种方法又叫“k折交叉验证法”，最终返回的是k个结果的均值。

如果我们取的k恰好等于样本数，那么此时得到了交叉验证法的特例：留一法。通常留一法的评估结果比较准确，但是计算量有时过于庞大。

三：自助法

给定m个样本的数据集D，然后对它进行采样得到数据集 $D^{'}$ 。 $D^{'}$ ：每次从D中随机挑一个样本放入 $D^{'}$ ，然后原数据集不变在进行重复挑选，执行m次后我们得到了包含m个数据地样本 $D^{'}$

显然 $D^{'}$ 中会有重复多次出现的样本，同时D中的一部分样本也不会出现在 $D^{'}$ 中。通过自主采样D中约有36.8%的样本不会出现在 $D^{'}$ 中，我们将 $D^{'}$ 做训练集， $D^{'}$ 中未出现的做测试集。

自助法适用于数据集较小，难以有效划分数据集和训练集的时候。

1.3性能度量

对于学习器的泛化性能进行评估，不仅需要有效可行的学习方法，还需要度量模型泛化能力的评估标准，称之为性能度量。

1.3.1查准率和查全率

对于二分类问题，根据样本的真实类别和学习器预测类别的组合划分为TP,FP,TN,FN。显而易见的是TP+FP+TN+FN=样本数。

	预测	结果
真实情况	正例	反例
正例	TP	FN
反例	FP	TN

查准率P与查全率R分别定义为：

$P=\frac{TP}{TP+FP},R=\frac{TP}{TP+FN}$

通常查准率P高则查群率R就低，只有一些简单的任务里才能实现双高。

一P-R曲线

我们对学习器的预测结果进行排序，排在前面的样本是学习器认为最可能是正例的，而排在最后的则截然相反。以此顺序逐个把样本作为正例预测，则每次可以得到当前的查全率，查准率。以查准率为纵轴，查全率为横轴作图得到查准率——查全率曲线，简称P-R曲线。

评判方法：一个学习器的P-R曲线若杯另一个学习器的曲线完全包住，则可断言后者的性能优于前者。如果学习器A和B的曲线有交叉部分，通常我们通过比较两个曲线和坐标轴形成的面积大小。

但是面积大小同样不好估算所以就比较平衡点的绝对值大小，平衡点是指当：查全率=查准率，时的取值。这个值越大说明学习器的性能越好。

二ROC曲线

大多学习器的本质是为测试样本产生一个预测值，然后把这个预测值和一个分类阈值进行比较，大于阈值的归为正类，小于阈值的归于反类。

我们把预测样本的值从大到小进行排序，然后按顺序把每一个样本的预测值都作为阈值进行对样本的判断，每次计算出两个重要量的值，分别以他们为横纵坐标，就得到了ROC曲线图。

纵轴为真正例率： $TPR=\frac{TP}{TP+FN}$ ,横轴为假正例率： $FER=\frac{FP}{TN+FP}$

评判方法：一个学习器的ROC曲线若杯另一个学习器的曲线完全包住，则可断言后者的性能优于前者。如果学习器A和B的曲线有交叉部分，通常我们通过比较两个曲线和坐标轴形成的面积大小。

1.4比较检验

我们用划分方法去评估某个模型的性能，但是要比较模型之间的性能优劣单单比较他们之间的大小是仅仅不够的，我们通过假设检验可以得到在同一个测试集上学习器A和B的泛化性能之间的优劣，以及有多大的把握证明他们之间的优劣关系。

二项检验：假设泛化误差 $\xi \leqslant \xi _{0}$ ， $\xi _{0}$ 一般来说是测试集的泛化错误率。给定置信度 $\alpha$ ，使用二项分布算出临界值 $\xi ^{-}$ 与测试错误率进行比较。

$\xi _{0}< \xi ^{-}$

不能拒绝原假设，说明泛化误差在当置信度为 $\alpha$ 时，确实小于 $\xi _{0}$

$\xi_{0} \geqslant \xi ^{-}$

拒绝原假设.

t检验：（双边假设检验） $\varepsilon _{1}^{^{B}},\varepsilon _{2}^{^{B}},....\varepsilon _{k}^{^{B}}$

当我们使用多次留出法，或者交叉验法时会得到多个测试错误率 $\xi _{0}$ ，这个时候我们就应该使用t检验。

我们计算出多个测试错误率的均值，方差： $\mu ,\sigma ^{2}$

我们假设 $\mu =\xi _{0}$ ，计算 $\left | \mu -\xi _{0} \right |$ 之间的差距是否为位于临界范围之内 $[t_{-\alpha /2},t _{\alpha /2}]$

在 $[t_{-\alpha /2},t _{\alpha /2}]$ 之内	接受原假设 $\mu =\xi _{0}$ ，认为泛化错误率为 $\xi _{0}$
不在 $[t_{-\alpha /2},t _{\alpha /2}]$ 之内	拒绝原假设

以上两个假设检验是对单个学习器的泛化性能所做的检验

交叉验证t检验：

学习器a和b使用k折交叉验证法得到的错误率分别为 $\varepsilon _{1}^{^{A}},\varepsilon _{2}^{^{A}},....\varepsilon _{k}^{^{A}}$ , $\varepsilon _{1}^{^{B}},\varepsilon _{2}^{^{B}},....\varepsilon _{k}^{^{B}}$ .

若两个学习器性能相同则在同一个测试集上的 $\varepsilon_{i}^{A} =\varepsilon _{i}^{B}$ , $\Delta _{i}=\varepsilon _{i}^{A}-\varepsilon _{i}^{B}$ 然后得到 $\Delta _{1},\Delta _{2}.....\Delta _{k}$