“西瓜书核心知识点”---第二章：模型评估与选择

最新推荐文章于 2024-11-13 22:55:02 发布

鬼才的凝视

最新推荐文章于 2024-11-13 22:55:02 发布

阅读量2.4k

点赞数

文章标签：机器学习深度学习计算机视觉

版权

1.错误率(error rate)：
分类错误的样本占样本总数的比例，
在这里插入图片描述
精度=1-错误率。

误差：学习器的实际预测输出与样本真是输出之间的差异。
训练误差or经验误差：学习器在训练集上的误差。

泛化误差：学习器在新样本上的误差。泛化误差越小越好。学的“太好了”（将训练样本本身的特点当成所有样本都会有的一般性质）就会导致泛化能力下降，即“过拟合”。“欠拟合”：对训练样本的一般性质尚未学好。

2.评估泛化误差：使用“测试集”来测试学习器对新样本的判别能力，得到“测试误差”即近似为“泛化误差”。
注意：测试集样本尽量与训练集互斥。

3.划分数据集：若只有一个数据集，划分训练集S和测试集T的方法：

(1)留出法：

①　按比例：三七分、二八分。
②　分层采样：若数据集D中包含500个正例、500个反例，则S中应该包含350个正、350个反，T中包含150个正、150个反。
③　随机划分：因为单次划分的评估结果不稳定，进行多次随机划分，训练出多个模型最后取平均值。

(2)交叉熵验证法：

“k折交叉熵”，将数据集D划分为k个大小相似的互斥子集，每个子集尽可能保持数据分布的一致性，即分层采样。其中k-1个子集的并集作为训练集S，另一个子集作为测试集S。常用k = 5,10,20。

(3)自助法：

用以解决数据集较小，难以有效划分训练/测试集时很有用。
具体：数据集的中有m个样本，每次采样得数据集D’，然后再将D’放入D中，保证下次采样还有可能被采到，此过程执行m次，即得到包含m个样本的数据集D’，作为训练集S，其余在D’中未出现的D中的样本作为测试集T。

(4)调参与自助模型
在这里插入图片描述
4.性能度量：衡量模型泛化能力的标准。

(1)错误率与精度：

该部分往下有点“迷人”

(2)查准率、查全率和F1：

因为错误率和精度不能满足其他要求，例如：“Web检索中，有多少比例的内容是用户所感兴趣的”“用户感兴趣的信息中多少被检索出来了”。
对二分类问题，将样例根据其真实类别与学习器预测类别的组合，形成分类结果混淆矩阵：

在这里插入图片描述

查准率：P = TP / ( TP + FP )
查全率：R = TP / ( TP + FN )

P高，则R低；P低，则R高。例：好瓜尽可能挑出来，增加选瓜数量，查准率低；好瓜比例高，只挑有把握的，漏掉好瓜，则查全率低。

P-R曲线：

在这里插入图片描述

①　若一个学习器的P-R曲线被另一个的完全包住，则后者性能更好；
②　比较P-R曲线下面积的大小，面积不好算；
③　比较BEP，BEP越大越好；
④　F1度量：

在这里插入图片描述
⑤　更复杂的见西瓜书Page 32.

(3)ROC（受试者工作特征）和AUC：

根据学习器的预测结果对样例进行排序（学习器为测试样本产生一个实值或概率预测，然后与一个分类阈值进行比较，大于阈值，为正，否则为负），按此顺序逐个把样本作为正例进行预测，得“真正例率”TPR（true positive rate）和“假正例率”FPR（false positive rate）。

在这里插入图片描述

下面是R0C和AUC曲线图：

在这里插入图片描述

点（0,1）：对应于将所有正例排在所有反例之前的“理想模型”。

曲线的绘制过程：

在这里插入图片描述

若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则断言后者优于前者。若两线交叉，则比较ROC曲线下的面积AUC。

在这里插入图片描述

(4)代价敏感错误率与代价曲线：

因为不同代价所造成的影响不同，直接用错误率（都看成影响相同的）不再适用，所以引入“代价敏感错误率”。

恕小弟不才，该章后面看的有点吃力，所以没写笔记，待我搞懂了，再来补上哈~”