The imbalanced data

最新推荐文章于 2022-06-09 20:19:44 发布

APRIL_HU

最新推荐文章于 2022-06-09 20:19:44 发布

阅读量343

点赞数

CC 4.0 BY-SA版权

分类专栏：统计建模文章标签：数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/APRIL_HU/article/details/50407774

统计建模专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了机器学习中数据不均衡性导致的分类误差问题，特别是决策树和神经网络算法的局限性。文章提出了抽样、特征函数加罚项、不均衡性权重加入等解决方案，并介绍了SVM算法对此问题的适应性。同时，总结了数据不均衡性对选择分类算法和方案实施的重要性，以及其对结果解释的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在机器学习中，比较侧重于算法的设计和实施，随着计算机的发展，想着如何更快更安全地处理数据，不过，在运用在各种机器学习的算法之前，需要首先对数据有一个比较好的考量。这里研究的问题是样本的不均衡性问题。

对于常规的机器学习算法，决策树类的，如ID3，C4.5，CART等，在最终划分出子集之后，子集的类别是依据于“少数服从多数”的原则，也即是说，少数的数据效应被忽略，大叔的数据效应被放大，这样对于分类而言就会造成误差。那么为什么会出现这种情况呢？一方面的原因是由于最开始用于分类的数据本身就是不均衡的，类别之间的数据量相差较大，其次就是正常分类时出现的正常情况。但是，对于分类之前，数据的不均衡性的考察，很少会有人去关注和处理。

不仅是对于决策树算法而言，对于神经网络，也是如此，对于神经网络而言，少数的类别直接作为噪声处理了，而学习的只是大数的类别。

然而，并不是所有的算法都有这样的缺点，对于SVM而言，由于其学习的是一类特征函数，基于该特征函数进行超平面的划分，只要最初所给的数据，可以让其学习较多的信息，那么数据的不均衡性对它则无明显影响，即便是在后面的预测中，也是如此。

现在，对于数据不均衡性的研究，逐步提上日程，常规的也有如下几种方法：

抽样

通过抽样方法的运用，将大的数据集变下，或者将小的数据集变大

对特征函数加罚项

在算法的设计中，加入不均衡性的权项，使得算法的实施，做了不均衡性的修正

很多分类算法可以提高数据的分类效果，但是，对于数据本身性质的考察，会更有助于方法的选择和方案的实施，以及结果的解释。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。