「ML」chapter2模型选择与评估

本文介绍了机器学习中常见的评估方法,包括经验误差、过拟合现象及如何通过划分训练集和测试集来评估学习器的性能。此外,还详细讨论了错误率、精度、查准率、查全率、F1度量等性能度量指标,以及ROC曲线和AUC值的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

经验误差和过拟合

  1. 经验误差
    学习器在训练集上的误差称为经验误差
    2.过拟合
    学习器的经验误差降低,同时泛化性能也跟着下降。
评估方法

划分训练集和测试集
1.留出法
数据划分成互斥的两组,并尽可能保证数据分布的一致性,避免因为划分过程引入的偏差而对结果产生影响。
同时,单次使用留出法得到的估计结果往往不够稳定,一般采用若干次随机划分,重复实验评估。
2. 交叉验证法
分成k组大小相似的互斥子集,一般采用分层采样。选k-1份作为训练集,余下作为测试集。
3. 自助法
在数据量不够大的时候,通过自助采样法使得样本规模一致:给定包含m个样本的数据集D,有放回的采样得到数据集D’, 可以保证约有36.8%的样本不被采集到。
自助法在数据集较小、难以划分训练/测试集时很有用,数据量足够时,前两种更常用点。
4. 调参和最终模型

性能度量
  1. 错误率与精度
    错误率:
    E(f;D)=1mi=1mI(f(xi)yi).

    精度:
    acc(f;D)=1E(f;D)
  2. 查准率(precision)和查全率(recall)与F1
    对于二分类问题,真是类别和预测类别的组合划分为真正例(TP),假正例(FP),真反例(TN),假反例(FN)。
    precision的计算方法:
    P=TPTP+FP

    recall
    R=TPTP+FN

    P-R曲线:根据学习器的预测结果对样例进行排序,排在最前的是学习器认为最可能是正例的样本。生成P-R曲线的方法是:取排序中的某一样例前的所有样例为预测的正样例,其余为反样例,计算出一组P-R值成为曲线中的一个点。
    F1度量:P、R的调和平均,跟算术平均和几何平均相比,调和平均更重视较小值
    F1=2×P×RP+R

    在不同的应用中对P、R的重视程度不一样,F1的一般形式 Fβ :
    Fβ=1+β2×P×R(β2×P)+R
  3. ROC和AUC
    真正例率TPR和假正例率FPR
    TPR=TPTP+FNFPR=FPFP+TN

    ROC曲线画法跟PR曲线类似,取TPR和FPR的点组形成,AUC为ROC曲线与FRP轴形成的面积,纵轴为TPR。AUC考虑样本预测的排序质量,因此与排序误差有紧密联系。
比较检验

假设检验 #略

偏差与方差

方差,对样本数相同的不同训练集训练误差的方差

f¯(x)=ED[f(x;D)]

方差:
var(x)=ED[(f(x;D)f¯(x))2]

噪声:
ϵ2=ED[(yDy)2]

偏差:
bias2(x)=(f¯(x)y)2

泛化误差:
E(f;D)=ED[(f(x;D)yD)2]=bias2(x)+var(x)+ϵ2

[参考文献]
Machine Learning by 周志华

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值