解决非平衡的数据处理方式

最新推荐文章于 2024-03-14 09:52:40 发布

原创最新推荐文章于 2024-03-14 09:52:40 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

// 学习笔记，勿喷，xjb写的，借鉴的地方很多

SMOTE 算法介绍

由于在实际运用中，对于分类问题中，因变量时存在很大地差距的，对应的比列严重失调。因为非类的样本毕竟在真实情况下所占的比例时很小的一块。

对于数据严重有偏的，对应的预测的结果也是有偏的，因此对应的分类结果很大程度地偏向较多观测样本的类别。因此，我们在这里需要很大程度的去构造出 1 ： 1的数据比例。如果直接使用过采样的处理方式，这样放回的样本是之前数据的简单的拟合，因此在这里是会出现模型的过拟合的情况；如果直接采用欠采样的处理方式，这样就会导致对应的正样本中间的数据被砍掉了很大的一部分，会导致某些信息的丢失。

SMOTE 算法是采用对于少类的数据样本进行分析和模拟，将人工模拟出来的数据添加到对应的数据集中间去，进而使得原始的数据集中的类别变得不再严重失衡，从而原始数据集中的类别不再会严重失衡。

使用的算法是 KNN 算法：