机器学习01-模型评估与选择

lucas_ch

于 2021-06-30 13:16:02 发布

阅读量365

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_39693517/article/details/118357440

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

机器学习01-模型评估与选择

1、经验误差与过拟合

错误率 $E = a / m$ =样本分类错误/样本总数

精度=1-错误率

在训练集上的误差称为训练误差或经验误差

新样本上的误差称为泛化误差

2、评估方法

测试集->测试误差 作为泛化误差的近似

测试集应尽可能与训练集互斥

产生训练集S和测试集T

2.1、留出法

直接将数据集 $D$ 分为两个互斥的集合，训练集 $S$ ，测试集 $T$ ，正反例按照相同的比例

缺陷：如 $T$ 较小，评估结果会不够准确；如 $T$ 较大， $S$ 和 $D$ 的差距会变大，被评估的模型与用 $D$ 训练出的模型可能有较大差别，降低了评估结果的保真性

2.2、交叉验证法

将 $D$ 划分为 $k$ 个大小相同的互斥子集，每次用 $k$ -1各子集并集作为训练集，余下的子集作为测试集，进行 $k$ 次训练和测试，返回 $k$ 次测试结果的均值

交叉验证评估结果的稳定性和保真性很大程度上取决于 $k$ 的取值，故称为“ $k$ 折交叉验证”，通常 $k$ 取10

在这里插入图片描述

为减少样本划分不同引入的差别， $k$ 折交叉验证随机使用不同的划分重复 $p$ 次，最终返回均值，称为“ $p$ 次 $k$ 折交叉验证”

如令 $k$ = $m$ 个样本，则称为留一法，不受随机样本划分的影响，训练出的模型更接近于期望的 $D$ 训练出的模型；但数据量很大时，计算开销过大

2.3、自助法

解决实际评估的模型所使用的训练集小于 $D$ 带来的估计偏差

自助采样：每次从 $D$ 取一个样本放入 $D^{'}$ 并放回，有一部分样本多次出现，另一部分不出现，不被采样到的概率为

在这里插入图片描述

则 $D^{'}$ 作为训练集， $D - D^{'}$ 作为测试集

优点：在数据集较小，难以划分训练、测试集时很有用

缺点：改变了初始数据集的分布，引入估计偏差

在数据量足够时，留出法和交叉验证法更常用

2.4、调参和最终模型

在进行模型评估和选择时，除了要对算法进行选择，还要对算法参数进行设定

常用做法：对每个参数选定一个范围和变化步长，在候选值中产生选定值

由于通常训练集小于 $D$ ,在使用训练集选定算法和参数后，应用数据集D重新训练模型，此为最终模型

3、性能度量performance measure

回归中常用的性能度量为均方误差

在这里插入图片描述

分类任务

3.1、错误率和精度

错误率为分类错误的样本数占样本总数的比例

在这里插入图片描述

精度为分类正确的样本数占样本总数的比例

在这里插入图片描述

更一般，对于概率密度函数 $p (\cdot)$

在这里插入图片描述

在这里插入图片描述

3.2、查准率precision，查全率recall和F1

在这里插入图片描述

查准率 $P$ ,预测的正例中的真正例

在这里插入图片描述

查全率 $R$ ,真实正例中预测出的正例

在这里插入图片描述

两者矛盾

查准率高时，查全率低，只挑选最有把握的正例预测，则预测的正例中真正正例较多，但漏掉了很多正例

查全率高时，查准率低，把所有都判为正例，则查全率为1，查准率较低

$P - R$ 图

将预测结果按照正例的比例进行排序，前面为可能性高的样本，后面越来越低，按顺序把样本当作正例，可计算出此时的查全率和查准率，画出 $P - R$ 图

在这里插入图片描述

A曲线完全包裹C曲线，认定学习器A的性能优于C；如有交叉如AB，则不能轻易断言两者优劣

平衡点BEP，Break-Event Point为查全率=查准率时的取值，则可比较A>B>C

由于BEP过于简化，更常用F1度量

在这里插入图片描述

F1基于调和平均在这里插入图片描述

当对于查准率和查全率重视程度不同时，如疾病判断中查全率更重要，此时用 $F_\beta$

在这里插入图片描述

$\beta$ >0， $\beta$ =1时为标准F1， $\beta$ >1是查全率有更大影响， $\beta$ <1时查准率有更大影响

在n个二分类混淆矩阵上综合考察查准率和查全率

宏macro ，每个混淆矩阵上计算出查准率和查全率再求平均

在这里插入图片描述

微micro，由TP，FP，TN，FN平均值计算

在这里插入图片描述

在这里插入图片描述

3.3、ROC与AUC

ROC 受试者工作特征 Receiver Operating Characteristic

与P-R曲线类似，但横轴为”假正例率“FPR 真实反例中被预测为正例的比率

在这里插入图片描述

纵轴为”真正例率“ TPR ，等于召回率R，真实正例中预测出的正例

在这里插入图片描述

在这里插入图片描述

如何利用有限个测试样例绘制ROC图

给定 $m^+$ =TP+FN个正例和 $m^-$ =TN+FP个反例，根据学习器预测结果对样例进行排序

把分类阈值设到最大，则全为反例，TPR和FPR均为0，对应点（0,0）
依次将每个样例划分为正例
前一个标记点为 $(x, y)$
若当前样例为真正例，则TP=TP+1,新坐标点为 $x,y+1/m^+)$
若当前样例为假正例，则FP=FP+1,新坐标点为 $x+1/m^-,y)$
然后用线段连接

如何比较优劣

与P-R图类似，包裹曲线由于被包裹曲线
如两个学习器的ROC曲线交叉，则难以断言，合理的判据是比较ROC曲线下的面积AUC，Area Under ROC Curve

特性

排序损失为 $l_{rank}$ ,对每一对正反例，若正例的预测值小于反例，即排序在反例之后，记一个罚分，此时曲线沿x轴增加，AUC变小；若相等，则记0.5个罚分
$l_{rank}$ 为ROC曲线之上的面积
若一个正例在ROC曲线上对应标记点的坐标为 $(x, y)$ ，则 $x$ 恰是排序在其之前的反例所占的比例，即假正例率

3.4、代价敏感错误率与代价曲线

实际生活中不同类型的错误所造成的后果不同，如医疗误诊。为权衡不同类型错误所造成的不同损失，可为错误赋予”非均等代价“ unequal cost

代价矩阵，重要的是 $cost_{01}$ 和 $cost_{10}$ 的比值而不是绝对值

在这里插入图片描述

正例预估错误的代价为 $cost_{01}$ ，反例预估错误的代价为 $cost_{10}$ ，代价敏感错误率为

在这里插入图片描述

非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，此时使用代价曲线 cost curve

横轴为取值[0,1]的正例概率代价， $p$ 为样例为正例的概率

在这里插入图片描述

纵轴为取值为[0,1]的归一化代价，FPR为假正例率,真实反例中被预测为正例的比率，

FNR=1-TPR假反例率，真实正例中被预测为反例的比率

在这里插入图片描述

绘制

ROC曲线上每一点对应了代价平面上的一条线段
设ROC曲线上点的坐标为（TPR，FPR）
在代价平面上连一条（0，FPR）到（1，FNR）线段
连接完所有线段后，取所有线段的下界，围成的面积为在所有条件下学习器的期望总体代价

在这里插入图片描述

4、比较检验

测得性能度量后如何比较

若在测试集上观察到学习器A比B好，则A的泛化性能是否在统计意义上由于B，以及这个结论的把握有多大

4.1、假设检验

当以错误率 $\epsilon$ 为性能度量

“假设”是对学习器泛化错误率分布的某种判断或猜想，但泛化错误率不能直接获得，只能获得测试错误率 $\hat{\epsilon}$ ,根据测试错误率推出泛化错误率的分布

泛化错误率为学习器在一个样本上犯错的概率 $\epsilon$

测试错误率为在 $m$ 个测试样本中恰有 $\hat{\epsilon}*m$ 个样本被误分类的概率

如将 $m^{'}$ 个样本误分类，泛化错误率为 $\epsilon$ 的学习器被测得测试错误率为 $\hat{\epsilon}$ 的概率公式为在这里插入图片描述

给定 $\hat{\epsilon}$ ，对上式求 $\epsilon$ 的偏导数，得到 $P$ 在 $\epsilon$ = $\hat{\epsilon}$ 时最大， $|\epsilon-\hat{\epsilon}|$ 增大时 $P$ 减小，符合二项分布

如图，若 $\epsilon$ =0.3，则10个样本中测得3个被误分类的概率最大

在这里插入图片描述

使用二项检验考虑假设 $\epsilon\leqslant\epsilon_0$ ,则在 $1-\alpha$ 的置信度内能观察到的最大错误率为

在这里插入图片描述

$\overline{\epsilon}$ 得到后如小于 $\epsilon_0$ ，则在 $\alpha$ 的显著度内，即以 $1-\alpha$ 的置信度，确信假设成立

当使用多次重复留出法或交叉验证法进行训练、测试，会得到多个测试错误率，此时使用t检验

假设得到k个测试错误率，则

在这里插入图片描述

考虑到k个测试错误率可看作泛化错误率 $\epsilon_0$ 的独立采样，则变量 $\tau_t$ 服从自由度为 $k - 1$ 的 $t$ 分布

在这里插入图片描述

在这里插入图片描述

对假设“ $\mu=\epsilon_0$ "，可计算出测试错误率均值为 $\epsilon_0$ 时，在 $1-\alpha$ 概率内能观察到的最大错误率，即临界值。

若平均错误率 $\mu$ 与 $\epsilon_0$ 之差 $|\mu-\epsilon_0|$ 位于临界值范围 $[t_{-\alpha/2},t_{\alpha/2}]$ 内，则假设在置信度1- $\alpha$ 内成立

4.2、交叉验证t检验

如检验两个学习器效果是否相同，使用k折交叉验证法得到k对错误率，看其差值是否在置信度内。

4.3、McNemar检验

对二分类问题

在这里插入图片描述

如量学习器性能相同，则应有 $e_{01}=e_{10}$ ，

在这里插入图片描述

符合自由度为1的 $\chi^2$ 分布，即标准正态分布的平方。

4.4、Friedman检验与Nemenyi后续检验

一组数据集上进行多个算法的比较

对每个数据集上的算法进行评分，并求平均
没看懂

4.5、偏差与方差

对测试样本 $x$ ,另 $y_D$ 为 $x$ 在数据集中的标记， $y$ 为 $x$ 的真实标记，有可能出现噪声使 $y_D\neq y$ ， $f (x; D)$ 为模型 $f$ 的预测输出

学习算法的期望预测为在这里插入图片描述

使用样本数相同的不同训练集产生的方差为在这里插入图片描述

噪声为在这里插入图片描述

期望输出与真实标记的差别称为偏差bias，在这里插入图片描述

算法的期望返泛化误差为在这里插入图片描述

拆解为

在这里插入图片描述

于是在这里插入图片描述

即泛化误差可分解为偏差，方差，噪声之和

偏差，度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力

方差，度量了同样大小的训练集变动所导致的学习性能的变化，即刻画可数据扰动所造成的影响

噪声，表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度

一般，偏差和方差有冲突，称为偏差-方差窘境bias-variance dilemma。

训练不足时，拟合能力不够强，则训练数据的扰动较小，此时偏差主导了泛化错误率。

训练加深，拟合能力加强，训练数据发生的扰动会被学习器学到，方差逐渐主导了泛化错误率，若训练数据自身的非全局特性被学习器学到，则会发生过拟合。

在这里插入图片描述

了学习算法本身的拟合能力

**方差，**度量了同样大小的训练集变动所导致的学习性能的变化，即刻画可数据扰动所造成的影响

噪声，表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度

一般，偏差和方差有冲突，称为偏差-方差窘境bias-variance dilemma。

训练不足时，拟合能力不够强，则训练数据的扰动较小，此时偏差主导了泛化错误率。

训练加深，拟合能力加强，训练数据发生的扰动会被学习器学到，方差逐渐主导了泛化错误率，若训练数据自身的非全局特性被学习器学到，则会发生过拟合。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lucas_ch 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。