2.模型性能的比较检验

本文介绍了如何在统计学上比较学习器的性能,包括单个学习器的t检验,两个学习器的交叉验证t检验和McNemar检验,以及多个数据集上多个算法的Friedman检验和Nemenyi后续检验。通过对偏差和方差的讨论,解释了影响学习算法泛化能力的因素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

标签(空格分隔): 王小草机器学习笔记


通过模型评估的方法与性能的度量我们知道了学习器的性能指标,但是如何知道这个学习器的性能是否真的达到要求,或者如何在统计学上比较学习器A优于学习器B,以及这个把握有多大呢?在统计学上,我们使用“统计假设检验”(hypothesis test)。

2.1 对单个学习器泛化性能的假设检验

做了多次留出法或者交叉验证法之后,会有多个测试误差率,此时使用“t检验”(t-test)来检验单个学习器产生的多个测试误差率是否满足预先期望的泛化误差率image_1b8dssq7b43ios61ck8eh7nb13.png-0.4kB

假设k次留出法得到k个测试误差率,平均测试误差为μ,方差为σ^2。
因为k个测试误差率可看做泛化误差率的随机采样,则变量Tt服从自由度为k-1的t分布:
image_1b8dsqglh1tco12q2r2q15r9aar9.png-2.4kB

原假设H0:μ = 泛化误差率image_1b8dssbn7peqs451kpa17bd1sqrm.png-0.4kB
根据预先设定的显著度α,以及自由度k-1,查表可得临界值b。
如果Tt小于临界值b则“不能拒绝原假设”,可认为泛化误差率为

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值