标签(空格分隔): 王小草机器学习笔记
通过模型评估的方法与性能的度量我们知道了学习器的性能指标,但是如何知道这个学习器的性能是否真的达到要求,或者如何在统计学上比较学习器A优于学习器B,以及这个把握有多大呢?在统计学上,我们使用“统计假设检验”(hypothesis test)。
2.1 对单个学习器泛化性能的假设检验
做了多次留出法或者交叉验证法之后,会有多个测试误差率,此时使用“t检验”(t-test)来检验单个学习器产生的多个测试误差率是否满足预先期望的泛化误差率。
假设k次留出法得到k个测试误差率,平均测试误差为μ,方差为σ^2。
因为k个测试误差率可看做泛化误差率的随机采样,则变量Tt服从自由度为k-1的t分布:
原假设H0:μ = 泛化误差率
根据预先设定的显著度α,以及自由度k-1,查表可得临界值b。
如果Tt小于临界值b则“不能拒绝原假设”,可认为泛化误差率为