22、基于分层集成的不平衡分类方法

基于分层集成的不平衡分类方法

1 引言

在数据挖掘和机器学习领域,类别不平衡是一个常见的实际问题。例如动物声音分类、欺诈检测和软件缺陷预测等场景,标准算法在处理不平衡问题时,容易误分类正类(少数类)样本,然而这些正类样本往往更为重要。以欺诈检测为例,它广泛应用于银行、政府、医疗和公共部门等众多领域,但正类样本数量却难以获取。在驾驶操作识别系统中,车道变更事件在标准驾驶数据集中相较于其他操作较少,但它却是事故的常见原因之一。因此,研究不平衡学习对于解决现实世界的问题至关重要。

目前,处理不平衡数据集的方法主要分为三类:
- 数据重采样
- 算法修改
- 集成方法

其中,集成方法在提高分类性能方面表现出色。单个学习器往往难以保证不平衡分类的结果,而多个分类器的融合可以产生不同的输出,通过融合选定的模型可以提高最终的分类性能,避免选择最差的分类器。为了创建集成,通常会使用数据重采样和算法修改等技术,其中数据重采样的集成方法达到了当前的先进水平。

本文提出了一种分层集成过采样方法,用于改进不平衡分类。具体贡献如下:
1. 提出了一种用于不平衡分类的分层集成方法,包括用于创建一级融合的自助采样和基于二级实例加权的融合。
2. 使用有放回的自助采样创建集成,避免选择最差的分类器,从而提高性能。
3. 比较和讨论了两种不同的加权策略。
4. 使用 k - 均值聚类生成基于多元高斯分布过采样的少数类子集。

2 相关工作

近年来,已经提出了多种处理不平衡数据集的方法:
- 提出了一种新颖的基于进化聚类的过采样集成框架,将基于聚类的合成数据生成方法与进化算法

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值