机器学习（周志华）习题参考答案第二章模型评估与选择

最新推荐文章于 2024-09-09 21:37:08 发布

tigerhuli

最新推荐文章于 2024-09-09 21:37:08 发布

阅读量5.6k

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/m0_37518259/article/details/83012436

本文探讨了在不同数据集划分下，如何评估机器学习算法的性能。通过具体案例，分析了留出法和10折交叉验证法在平衡数据集上的应用，揭示了不同评估方法对错误率的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

                    
                    数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

答：在保持样本均衡的前提下，正例和反例在训练和测试集中的数量相同。在正例中的采样结果为C500150C_{500}^{150}C500150​，所以总的采样结果为(C500150)2{(C_{500}^{150})^2}(C500150​)2。
数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

答：对于10折交叉验证，由于训练集中的正反样本数量相同，所以最后的错误率平均为50%；对于留一法，由于留出的一个恰好属于训练集中较少的一方，所以测试结果都是错误的，最后的平均错误率为100%。