机器学习中的不平衡问题

howardact

于 2017-02-17 10:09:52 发布

阅读量861

点赞数

CC 4.0 BY-SA版权

分类专栏： machineLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/howardact/article/details/55504529

machineLearning 专栏收录该内容

22 篇文章

订阅专栏

本文介绍了处理不平衡数据集的两种主要方法：修正阈值法和随机采样法。修正阈值法通过调整阈值来改变预测结果，随机采样法则包括随机过采样和随机欠采样。此外还详细讲解了SMOTE算法及其变种Borderline-SMOTE算法的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、修正阈值法

对于模型 $y = w^Tx+b$ 新样本的预测值y通常与阈值比较，比如 $y>0.5$ 判为正例，
$即 y 1 - y > 1 ，则预测为正例$ $即\frac{y}{1-y}>1，则预测为正例$
利用正负样本的比例调整阈值：
$y 1 - y > m + m -$ $\frac{y}{1-y}>\frac{m^+}{m^-}$
则预测为正例。
若阈值仍为1，则
$y ' 1 - y ' = y 1 - y \times m - m + > 1$ $\frac{y'}{1-y'}=\frac{y}{1-y} \times \frac{m^-}{m^+}>1$

2、随机采样

2.1随机过采样

从少数类 $S_{min}$ 中抽取数据集 $E$ ，采样的数量要大于原有少数类的数量，最终的训练集为 $S_{maj}+E$ 。

2.1.1、SMOTE算法

对于少数类中每一个样本 $x$ ，以欧氏距离为标准计算它到少数类样本集 $S_{min}$ 中所有样本的距离，得到其k近邻。
根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择N个样本。
$遍历N个样本，令其中一个样本表示为：\tilde{x}_i,i=\{1,2,...,N\}，则新样本为：$ 。
$x n e w i = x + r a n d (0, 1) \times (x ~ i - x), i = {1, 2, . . ., N}$ $x_{new_i}= x+rand(0,1) \times (\tilde{x}_i-x),i=\{1,2,...,N\}$

SMOTE

2.1.2、Borderline-SMOTE算法

$在Borderline-SMOTE中，若少数类样本的每个样本x_i求k近邻，记作S_{i−knn}，且S_{i−knn}属于整个样本集合S，若满足$

k 2 < | S i - k n n \cap S m a j | < k

$\frac{k}{2} < |S_{i-knn} \cap S_{maj}|<k$
则将

xi $x_i$ 加入DANGER集合，DANGER集合代表了接近分类边界的样本，将DANGER当作SMOTE的种子样本生成新样本。

2.2、随机欠采样

从多数类 $S_{maj}$ 中随机选择少量样本 $E$ ，再合并原有少数类样本作为新的训练数据集，新数据集为 $S_{min}+E$

2.2.1、EeasyEnsemble 算法

此算法类似随机森林的Bagging方法，具体步骤如下：
1. 把数据分成两部分，分别是多数样本和少数样本；
2. 对于多数样本 $S_{maj}$ ，通过n次有放回抽样，生成n份子集；
3. 少数样本分别和这n份样本合并训练n模型；
4. 最终结果是这n个模型预测结果的平均值。

http://baogege.info/2015/11/16/learning-from-imbalanced-data/
http://www.doc88.com/p-7314389829640.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。