机器学习笔记 - 怎么确认是否有足够的训练数据?

本文探讨了在机器学习项目中如何确定合适的训练数据量,涉及回归分析、计算机视觉、假设检验、统计学习理论等多个方面。通过研究学习曲线和实际案例,指出模型性能与数据量的关系,并建议在数据不平衡情况下,增加训练数据可能是最佳解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        最近有一些关于数据是否是新石油的争论。 无论如何,为我们的机器学习工作获取训练数据可能是昂贵的(在工时、许可费、设备运行时间等方面)。 因此,机器学习项目中的一个关键问题是确定需要多少训练数据才能实现特定的性能目标(即分类器准确性)。

         在这篇文章中,我们将在从回归分析到深度学习等领域对有关训练数据大小的实证和研究文献结果进行快速但广泛的审查。 训练数据大小问题在文献中也称为样本复杂度。 具体来说,我们将:

  • 说明回归任务和计算机视觉任务训练数据的经验范围;
  • 给定统计检验的检验效能,讨论如何确定样本数量。这是一个统计学的话题,然而,由于它与确定机器学习训练数据量密切相关,因此也将包含在本讨论中;
  • 展示统计理论学习的结果,说明是什么决定了训练数据的多少;
  • 给出下面问题的答案:随着训练数据的增加,模型性能是否会继续改善?在深度学习的情况下又会如何?
  • 提出一种在分类任务中确定训练数据量的方法;
  • 最后,我们将回答这个问题:增加训练数据是处理数据不平衡的最佳方式吗?

        1、训练数据大小的经验界限

        让我们首先根据我们使用的模型类型讨论一些广泛使用的经验方法来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值