周志华机器学习读书笔记（二）模型评估与选择

最新推荐文章于 2025-04-19 22:54:50 发布

原创最新推荐文章于 2025-04-19 22:54:50 发布 · 386 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

周志华机器学习专栏收录该内容

2 篇文章

订阅专栏

第二章模型的评估与选择

板蓝根的板蓝（qq：1764681289）

邮箱：1764681289@qq.com

第一节经验误差与过拟合

1、几个名词解释

损失函数
风险函数
训练误差
测试误差
泛化误差
经验风险
经验风险最小化（ERM）
过拟合（overfitting）

过拟合：当学习器把样本训练的太好时，可能已经把训练样本的自身特点当成了所有样本的一般性质，这样就会导致泛化能力下降。过拟合是机器学习面临的关键障碍。周志华先生认为过拟合是无法避免的，我们只能减弱它带来的影响。

第二节评估方法

1、留出法

将样本分成两个互斥的集合，一部分是训练集，另一部分是测试集，比例一般是2:1到4:1。但是单次留出法得到的结果往往不稳定不可靠，需要进行多次随机划分进行实验取平均值。

2、交叉验证法

将样本分为k的不同的集合，取其中k-1个集合作为训练集，剩余的一个作为测试集，然后再取另k-1个集合做训练集，依次做k次实验，取他们的平均值作为结果，也成为k折交叉验证。k折交叉验证通常需要随机划分p次，成为p次k折交叉验证。

3、自助法

从样本集D有放回的抽取m个样本，得到训练集D'，这样一个样本在m次抽取中均不会被抽到的概率为（1-1/m）^m ,他的极限是1/e,大约是0.368，这就是说大约有36.8%的样本在这次取样中不会出现在训练集D'中。我们取D'作为训练集，D/D'作为测试集。

自助法在数据集较少，难以划分训练集和测试集时很有用，然而，这种方法却会改变样本集的分布，会带来一定的误差。因此，当数据集充足时，留出法和交叉验证法比较常用。

第三节性能度量

错误率与精度
错误率是分类错误的样本数占样本总数的比例，精度是分类正确的样本数占样本总数的比例

查准率和查全率

查准率与查全率是一对矛盾的指标，可以做出两者的关系图P-R图

可以看出，A，B均完全在C的上面，这意味着他们的性能优于C，而A和B有交叉，此时难以一般性的说明孰优孰劣，因此人们设计了一些综合考察查准率和查全率的性能度量。

我们有用y=x这条线和曲线相交，交点为平衡点（break-even point，简称BEP），用这个点判断哪个性能比较好，不过这个方法过于简单，这时我们便考虑用其他的指标考察。

常用的有F1度量，F1是根据P和R的调和平均定义的

F1还有一个标准形式，Fβ，定义为，β>0。

当β∈（0,1）时，侧重于查准率

当β∈（1，+∞）时，侧重于查全率

当β=1时，即为我们前面提到的F1度量

真正例率（TPR）和假正例率（FPR）

TPR := TP/(TP+FN)

FPR:=FP/(FP+TN)

ROC & AUC 图

绘制图2.4（b）的步骤如下：

给m+个正例和m-个反例，让学习器进行处理给出预测得分，按照得分排序，将分类阈值设置成最大，此时均为反例，真正例率和假正例率都是0，坐标在（0,0）。然后把第一个的预测值作为阈值，则只有第一个例子被预测为正例，若它是正例，则真正例的个数加一，则真正例率变成0+1/m+,y坐标向上移动1/m+，（遍历一遍所有的例子总共有m+个正例，y坐标要向上移动m+/m+ 就是1个单位），若它是反例，则相同，不过是x轴向右移。

正例的得分越高，就会越往前排，这样假如正例和反例被恰好分成前后两部分，我们就可以选择一个阈值，从而完全正确的对样例进行预测，从图形上直观的看就是先沿着y轴直接走到（0,1），再水平向右移动到达（1,1），这样一来，图形的面积就是1,这里还和后面的排序损失（loss） L（rank）有关，一会再说。我们也可以知道，若一个学习器的曲线完全包含另一个学习器的曲线，则前者的泛化能力比较强。如果两条曲线发生交叉，则可以由面积，即AUC(AREA UNDER ROC CURVE），