模型评估与选择
2.1 经验误差和过拟合
错误率(error rate): 分类错误的样本数占样本总数的比例。(即如果在m个样本中有a个样本分类错误,则错误率E=a/m)。1-a/m称为“精度”。
过拟合(ovrefitting):当把训练样本自身的一些特点当作了所有潜在样本都会有的一般性质,就会导致泛化能力下降。
欠拟合(underfitting):学习器对训练样本的一般性质尚未学好。
而学习能力是否”过于强大“,是由学习算法和数据内涵共同决定的。
查准率P和查全率R是一对矛盾的度量,一般来说,查准率吧高时,查全率往往偏低;而查全率高时,查准率往往偏低。
F1度量:F1是基于查准率与查全率的调和平均值定义的:F1= 2*P*R/P+R=2*TP/样例总数+TP-TN。
Fв则是加权调和平均
其中в>0,度量了查全率对查准率的相对重要性,в=1时退化为标准的F1;в>1时查全率有更大影响;в<1时查准率有更大影响。
“偏差-方差分解”(bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。
泛化误差可分解为偏差、方差与噪声之和。
偏差、方差、噪声的含义
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;
方差度量了同样大小的训练集的变动所导致的学习性能的变化。
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
偏差-方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响较小。