7.开发和测试数据集多大合适 翻译自 吴恩达新书-Machine Learning Yearning

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

为了检测出不同算法之间的差异,开发数据集应该足够大。比如,分类算法A的准确率为90.0%, 分类算法B的准确率为90.1%,如果开发数据集中只有100个样本,那你无法检测出这0.1%差在哪儿。100个样本的开发数据集实在时太小了。通常,我们会在开发数据集通中,放入1000到10,000个样本。对于10,000个样本来说,找到这0.1%并改进它,就相对容易多了。

别小看这0.1%,对于一些成熟和重要的应用来说,比如广告推荐、网页搜索、产品推荐,这0.1%就直接影响着公司的利润,因此这些团队都非常积极的改进模型,哪怕时0.1%。这种情况下,开发数据集中的样本数量会远大于10,000个,目的就是能让模型获得改善,哪怕是微小的改善。

那对于测试样本集呢?它多大合适呢?它也应该要足够大,这样他给出的评估指标才相对靠谱。通常人们用所有数据的30%作为测试数据集。如果你的数据量相对适中(比如有100到10,000个样本),这么做会非常有效。但是在大数据时代,我们的机器学习模型,往往会处理数10亿个样本,即使少分配一些给开发和测试样本集,但是相对数量也会增加不少。此时,对于开发和测试数据集来说,太大的数据集并没有必要,能评估出你的算法性能即可。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值