【机器学习】1.绪论（模型评估）_firedman模型-优快云博客

本文详细介绍了机器学习中模型评估与选择的方法，包括经验误差、过拟合、泛化误差的概念，以及留出法、交叉验证法、自助法等评估方法。同时，还探讨了回归任务、分类任务的性能度量，如错误率、精度、查准率、查全率、F1值、ROC曲线、AUC等，并讨论了代价敏感错误率、代价曲线以及模型选择的比较检验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本术语

eg：（色泽=青绿，根蒂=卷缩），（色泽=乌黑，根蒂=稍卷）

每一个括号内是一条数据，是关于一个事务或对象的描述，称为一个示例或样本
记录的集合称为数据集
属性的张成空间称为属性空间/样本空间/输入空间

eg：（（色泽=青绿，根蒂=卷缩），好瓜）

将示例结果（好瓜）称为标记
有标记的示例称为样例
所有标记的集合称为标记空间

分类：欲预测的是离散数据
回归：欲预测的是连续数据
聚类：将训练集分为若干组，每个组称为簇

监督学习：训练集合有标记（分类，回归）
无监督学习：训练集合无标记（聚类）

范化：学习模型适用于新样本的能力

假设空间：？* ？* ？+1

奥卡姆剃刀：若多个假设与观察一致。则选择最简单的。

模型评估与选择

经验误差和过拟合

训练误差：学习器在训练集上的误差，又称为经验误差
泛化误差：学习器在新样本上的误差。

过拟合：训练样本学习的过多，模型泛化能力下降
欠拟合：对训练样本的一般特性尚未学习好

评估方法

使用测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似

留出法

直接将数据集D划分为两个互斥的集合，其中一个集合为训练集S，另外一个作为测试集T，即D=S U T, SNT=空
tips：

训练集测试集的划分尽可能保持数据分布的一致性
进行多次随机划分，返回多吃随机划分的平均值
常见将大约2/3或4/5的样本用于训练，其余作为测试

交叉验证法/k折交叉验证法

将数据集D划分为k个大小相似的互斥子集，即D = D1 U D2 U…U DK，每次使用k-1个子集的并集作为训练，余下的作为测试，最后取均值。
tips：

k最常见取值为10，其他的取值有5，20
为了减少因样本划分不同而引入的误差，通常进行p次k折交叉验证
留一法，即k=m（m为数据集D中包含的样本数）

自助法

对包含m个样本的数据集D，我们对它进行采样产生数据集D’:每次随机重D中挑选一个样本，将其拷贝放入D’中，然后将该样本放回数据集D中，重复m次，得到D’，以D’为训练集,D!=D’为测试集。
tips：

样本在m次采样中始终没有被取到的概率为（1-1/m）^m,约等于0.36
自助法在样本集较小时，比较适用
自助法产生的数据集，会改变初始样本的分布，会引入估计误差

性能度量

衡量模型范化能力的评价标准

回归任务

常用均分误差
$\frac{1}{m} \displaystyle\sum_{i=1}^{m} (f(x_i)-y_i)^2$

分类任务

错误率和精度

错误率：分类错误的样本占总样本数目的比例
精度：分类正确的样本数占样本总数的比例

$\frac{1}{m} \displaystyle\sum_{i=1}^{m} \prod(f(x_i)\neq y_i)$
$\frac{1}{m} \displaystyle\sum_{i=1}^{m} \prod(f(x_i)= y_i) = 1-E(f;D)$

查准率、查全率和F1

预测情况\预测情况	正例	反例
正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)

精确率:
$\frac{TP}{TP+FP}$
召回率：
$\frac{TP}{TP+FN}$
（1）P-R曲线：以查准率为纵轴，查全率为横轴作图，根据比较平衡点（P=R）判断学习器的优劣
（2）F1度量
$\frac{2P*R}{P+R} = \frac{2TP}{2TP+FP+FN}$
F1度量的一般形式为 $\mathop F_\beta$ :
$F_\beta=\frac {1+\beta ^2*P*R}{\beta^2*P+R}$
当 $\mathop\beta=1$ 时退化为标准F1，当 $\mathop\beta>1$ 时查全率影响大，当 $\mathop\beta<1$ 时，查准率影响大。

当在多个混謵矩阵上进行综合考察时，分别求得P,R取平均，即宏查全率，宏查准率，与宏F1：
$\frac {2*macro-P*macro-R}{macro-P+macro-R}$
分别求得TP,FP,FN,TP,取平均，即微查准率
$\frac {\overline {TP}}{\overline {TP} + \overline {FP}}$
$\frac {2*micro-P*micro-R}{micro-P+micro-R}$

ROC与AUC

ROC曲线的纵轴是真正例率，横轴是假正例率，TPR/FPR
$\frac{TP}{TP+FN}$
$\frac{FP}{TN+FP}$
AUC是ROC曲线下的面积

代价敏感错误率和代价曲线

非均等代价：权衡不同错误所造成的不同损失
以二分类任务为例， $\mathop cost_{ij}$ 表示将第i类判断为第j类的代价

	第0类	第1类
第0类	0	$\mathop cost_{01}$
第1类	$\mathop cost_{10}$	0

若将第0类作为正例，第1类作为反例，另D+和D-分别代表样例集D中正/反类的子例。
代价敏感错误率：
$\frac{1}{m}( \displaystyle\sum_{x_i\in D^+} \prod(f(x_i)\neq y_i)*cost_{01} +\displaystyle\sum_{x_i\in D^-} \prod(f(x_i)\neq y_i)*cost_{10} )$
代价曲线：横轴是取值为[0,1]的正例概率代价
$P_{(t)}cost = \frac{P*cost_{01}}{P*cost{01}+(1-P)*cost{10}}$
纵轴是取值为[0,1]的归一化代价
$\frac{FNR*P*cost_{01}+FPR*(1-P)*cost_{10}}{P*cost_{01}+(1-P)*cost_{10}}$