机器学习训练中常见的问题和挑战！

机器学习训练的常见问题与挑战解析

最新推荐文章于 2024-04-01 23:28:06 发布

原创

最新推荐文章于 2024-04-01 23:28:06 发布 · 1.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #python #机器学习 #人工智能 #深度学习

本文探讨了机器学习训练中遇到的问题，包括数据不足、数据代表性差、低质量数据、无关特征、过拟合和欠拟合。强调了数据质量和代表性的重要性，以及在模型复杂性和正则化之间的平衡。解决这些问题对于提高模型的泛化能力至关重要。

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：奥雷利安·杰龙

由于我们的主要任务是选择一种学习算法，并对某些数据进行训练，所以最可能出现的两个问题不外乎是“坏算法”和“坏数据”，本文主要从坏数据出发，带大家了解目前机器学习面临的常见问题和挑战，从而更好地学习机器学习理论。

一、训练数据的数量不足

要教一个牙牙学语的小朋友什么是苹果，你只需要指着苹果说“苹果”（可能需要重复这个过程几次）就行了，然后孩子就能够识别各种颜色和形状的苹果了，简直是天才！

机器学习还没达到这一步，大部分机器学习算法需要大量的数据才能正常工作。即使是最简单的问题，很可能也需要成千上万个示例，而对于诸如图像或语音识别等复杂问题，则可能需要数百万个示例（除非你可以重用现有模型的某些部分）。

数据的不合理有效性

在2001年发表的一篇著名论文中，微软研究员Michele Banko和Eric Brill表明，给定足够的数据，截然不同的机器学习算法（包括相当简单的算法）在自然语言歧义消除这个复杂问题上注8，表现几乎完全一致（如下图所示）。

数据与算法的重要性注

正如作者所说：“这些结果表明，我们可能会重新思考如何在二者之间做权衡—将钱和时间花在算法的开发上，还是花在语料库的建设上。”

对复杂问题而言，数据比算法更重要，这一想法被Peter Norvig等人进一步推广，于2009年发表论文“The Unreasonable Effectiveness of Data”

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。