人工智能中数据组合采样、特征层、算法层的讲解(图文详解)

一、数据组合采样

欠采样和过采样都是只针对某一类样本,第三种采样就是把过采样和欠采样技术结合起来同时进行,即组合重采样,其基本思想是增加样本集中少数类样本的个数,同时减少多数类样本的个数,以此来降低不平衡度,有两个典型的组合方法:SMOTE+Tomeklinks和SMOTE+ENN,下面对它们分别进行讲解

1:SMOTE + Tomek Link Removal

首先,利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。然后剔除T中的Tomek links对

为什么需要这两者的组合呢?避免SMOTE导致原本属于多数类样本的空间被少数类“入侵”(invade),由Tomek links去除噪声点或者边界点

2:SMOTE+ENN 

和SMOTE+Tomek links方法的思路相似,包含两个步骤

1) 利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T

2) 对T中的每一个样本使用kNN(一般k取3)方法预测,若预测结果和实际类别标签不符,则剔除该样本

二、特征层的不平衡数据分类

在网络安全中,某些类别的网络数据难以获得而导致了非平衡问题,多数类通常是正常的,而少数类是攻击行为,各个类别的样本数量分布虽然具有不平衡性,但这种非平衡性并非在所有特征上都存在

特征层解决不平衡数据分类的思路就是选择

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

showswoller

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值