2.4 比较检验
- 问题:
- 希望比较的是泛化技能,实验评估方法得到的是测试集上的性能’
- 测试集上的性能与测试集本身的选择有很大关系。大小、包含测试样例的不同,都会影响测试结果。
- 很多学习算法有一定随机性
- 采用统计假设检验
2.4.1 假设检验
- 学习器泛化错误率为
,测试错误率为
,在包含m个样本的测试集上,泛化错误率为
的学习器被测得测试错误率为
的概率为:
本文详细介绍了模型评估中的统计检验方法,包括假设检验、交叉验证t检验、McNemar检验以及Friedman检验和Nemenyi后续检验。强调了在评估过程中考虑泛化误差、偏差与方差的重要性,以及处理测试错误率相关性的方法。
1255
557
981
1320

被折叠的 条评论
为什么被折叠?