第二章 模型评估与选择
2.1 经验误差与过拟合
- 错误率E=a/m(m个样本中有a个样本分类错误),精度=(1-a/m)。
- 学习器在训练集上的误差称为“训练误差”,在新样本上的误差称为“泛化误差”。
2.2 评估方法
将数据集划分为数据集和测试集:
-
留出法:
在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
-
交叉验证法(K折交叉验证):
K一般取值为10。
假设数据集D中包含m个样本,若令k=m,则得到了交叉验证法的一个特例:留一法。留一法中被实际评估的模型与期望评估的用D训练出来的模型很相似。往往被认为比较准确,但在数据集较大时,开销太大。
-
自助法:自助采样,每次从数据集中挑选一个样本将其拷贝到D‘,重复m次。样本在m次采样中始终不被采到的概率约为0.368。
自助法在数据集较小、难以有效划分训练集/测试集时很有用;此外,自助法从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大好处。
在初始数据量足够时,留出法和交叉验证法更常用。
2.3 性能度量
-
均方误差:
-
错误率和精度:
-
查准率和查全率:(准确率,召回率)
其中TP+FN+FP+TN=样本总数。
一般来说,准确率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
综合考虑查准率和查全率的性能度量:
1、平衡点:是查准率=查全率时的取值。
2、F1度量:
(
) F1度量的一般形式——Fβ
(
)