最近有一些关于数据是否是新石油的争论。 无论如何,为我们的机器学习工作获取训练数据可能是昂贵的(在工时、许可费、设备运行时间等方面)。 因此,机器学习项目中的一个关键问题是确定需要多少训练数据才能实现特定的性能目标(即分类器准确性)。
在这篇文章中,我们将在从回归分析到深度学习等领域对有关训练数据大小的实证和研究文献结果进行快速但广泛的审查。 训练数据大小问题在文献中也称为样本复杂度。 具体来说,我们将:
- 说明回归任务和计算机视觉任务训练数据的经验范围;
- 给定统计检验的检验效能,讨论如何确定样本数量。这是一个统计学的话题,然而,由于它与确定机器学习训练数据量密切相关,因此也将包含在本讨论中;
- 展示统计理论学习的结果,说明是什么决定了训练数据的多少;
- 给出下面问题的答案:随着训练数据的增加,模型性能是否会继续改善?在深度学习的情况下又会如何?
- 提出一种在分类任务中确定训练数据量的方法;
- 最后,我们将回答这个问题:增加训练数据是处理数据不平衡的最佳方式吗?
1、训练数据大小的经验界限
让我们首先根据我们使用的模型类型讨论一些广泛使用的经验方法来