模型评估与选择

最新推荐文章于 2024-11-28 21:08:34 发布

WEW_diger

最新推荐文章于 2024-11-28 21:08:34 发布

阅读量351

点赞数

分类专栏：西瓜书读书笔记

西瓜书读书笔记专栏收录该内容

4 篇文章

订阅专栏

1.概念

错误率：错误分类的样本数占样本总数的比例

精度：1-错误率，即正确分类的样本数占样本总数的比例

经验（训练）误差：学习器在训练集上的误差

泛化误差：学习器在新样本上的误差

过拟合：学习器在训练集上效果太好，而在新样本上的效果较差的现象。

模型选择：不同学习算法或者相同的学习算法，当使用不同的参数配置时，会导致不同的模型。模型选择是针对参数配置的选择。一般选择泛化误差最小的模型。

2.评估模型泛化误差的方法

留出法：将数据集分为两个相斥集合，一个作为训练集，一个作为测试集，用测试集来评估其测试误差，作为对模型泛化误差的估计。需要注意的是：数据集划分时注意保持数据分布的一致性。

（k折）交叉验证法：将数据集分为k个大小相似的数据集合，每个数据集尽可能的保持数据分布的一致性。取k-1个集合数据作为训练集，剩下的作为测试集。分别进行k组训练和测试，返回k个测试结果的均值。

3.评价标准

错误率与精度、查准率（precision）、查全率（recall），F1度量，ROC与AUC曲线

以西瓜判别为例：其真实的类别与学习器预测的类别组合可分为以下四种

真实情况	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN(假反例)
反例	TN(假正例)	TN(真反例)

查准率指p定义为 $P=\frac{TP}{TP+FP}$ ，即西瓜中判别正确的西瓜的比例，查全率R定义为： $R=\frac{TP}{TP+FN}$ ,即真实西瓜中，有多少比例被预测出来了。真实情况中，查准率和查全率是一对矛盾体。

F1度量是根据查准率和查全率的调和平均值定义的： $\frac{1}{F1}=\frac{1}{2}*(\frac{1}{P}+\frac{1}{R})$ ，宏F1是指在各个混淆矩阵上分别计算出查准率与查全率，然后计算平均，最后得到macro-F1；微F1是指各个混淆矩阵对应的元素取平均，得到TP、TN、FN、TN在基于这些平均值计算得到micro-F1。总结起来就是，macro-F1是先求值后平均，micro-F1是先平均后求值。

ROC与P-R图相似，不同是ROC的纵轴是“真正例率”（TPR），横轴是“假正例率”（FPR），两者定义为： $TPR= \frac{TP}{TP+FN},FPR=\frac{FP}{FP+TN}$ 。与P-R图相似，若ROC曲线被另一个学习器的ROC曲线完全包住，则后者对应的学习器的性能优于前者，或者比较曲线包围的图形面积大小即AUC（Area Under ROC Curve），评判学习器的好坏。