7.开发和测试数据集多大合适翻译自吴恩达新书-Machine Learning Yearning

最新推荐文章于 2025-11-18 01:53:14 发布

翻译最新推荐文章于 2025-11-18 01:53:14 发布 · 1.9k 阅读

文章标签：

吴恩达-YEARNING 专栏收录该内容

54 篇文章

订阅专栏

本文探讨了机器学习中开发与测试数据集的规模对算法性能评估的影响。指出即使是0.1%的准确率提升，在实际应用如广告推荐中也至关重要。建议开发数据集至少包含1000到10,000个样本，测试数据集则通常占总数据的30%，但在大数据场景下，过大的测试集并无必要。

更多好玩的机器学习教程: 进入袋马学院领一份，全部免费?.

为了检测出不同算法之间的差异，开发数据集应该足够大。比如，分类算法A的准确率为90.0%, 分类算法B的准确率为90.1%，如果开发数据集中只有100个样本，那你无法检测出这0.1%差在哪儿。100个样本的开发数据集实在时太小了。通常，我们会在开发数据集通中，放入1000到10,000个样本。对于10,000个样本来说，找到这0.1%并改进它，就相对容易多了。

别小看这0.1%，对于一些成熟和重要的应用来说，比如广告推荐、网页搜索、产品推荐，这0.1%就直接影响着公司的利润，因此这些团队都非常积极的改进模型，哪怕时0.1%。这种情况下，开发数据集中的样本数量会远大于10,000个，目的就是能让模型获得改善，哪怕是微小的改善。

那对于测试样本集呢？它多大合适呢？它也应该要足够大，这样他给出的评估指标才相对靠谱。通常人们用所有数据的30%作为测试数据集。如果你的数据量相对适中(比如有100到10,000个样本)，这么做会非常有效。但是在大数据时代，我们的机器学习模型，往往会处理数10亿个样本，即使少分配一些给开发和测试样本集，但是相对数量也会增加不少。此时，对于开发和测试数据集来说，太大的数据集并没有必要，能评估出你的算法性能即可。