机器学习笔记 - 怎么确认是否有足够的训练数据？

最新推荐文章于 2024-10-24 17:13:01 发布

坐望云起

最新推荐文章于 2024-10-24 17:13:01 发布

阅读量889

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习从入门到精通文章标签：深度学习机器学习数据数据集

原文链接：https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee

深度学习从入门到精通专栏收录该内容

797 篇文章 ¥99.90 ¥299.90

订阅专栏

本文探讨了在机器学习项目中如何确定合适的训练数据量，涉及回归分析、计算机视觉、假设检验、统计学习理论等多个方面。通过研究学习曲线和实际案例，指出模型性能与数据量的关系，并建议在数据不平衡情况下，增加训练数据可能是最佳解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近有一些关于数据是否是新石油的争论。无论如何，为我们的机器学习工作获取训练数据可能是昂贵的（在工时、许可费、设备运行时间等方面）。因此，机器学习项目中的一个关键问题是确定需要多少训练数据才能实现特定的性能目标（即分类器准确性）。

在这篇文章中，我们将在从回归分析到深度学习等领域对有关训练数据大小的实证和研究文献结果进行快速但广泛的审查。训练数据大小问题在文献中也称为样本复杂度。具体来说，我们将：

说明回归任务和计算机视觉任务训练数据的经验范围；
给定统计检验的检验效能，讨论如何确定样本数量。这是一个统计学的话题，然而，由于它与确定机器学习训练数据量密切相关，因此也将包含在本讨论中；
展示统计理论学习的结果，说明是什么决定了训练数据的多少；
给出下面问题的答案：随着训练数据的增加，模型性能是否会继续改善？在深度学习的情况下又会如何？
提出一种在分类任务中确定训练数据量的方法；
最后，我们将回答这个问题：增加训练数据是处理数据不平衡的最佳方式吗?

1、训练数据大小的经验界限

让我们首先根据我们使用的模型类型讨论一些广泛使用的经验方法来

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。