一、数据组合采样
欠采样和过采样都是只针对某一类样本,第三种采样就是把过采样和欠采样技术结合起来同时进行,即组合重采样,其基本思想是增加样本集中少数类样本的个数,同时减少多数类样本的个数,以此来降低不平衡度,有两个典型的组合方法:SMOTE+Tomeklinks和SMOTE+ENN,下面对它们分别进行讲解
1:SMOTE + Tomek Link Removal
首先,利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。然后剔除T中的Tomek links对
为什么需要这两者的组合呢?避免SMOTE导致原本属于多数类样本的空间被少数类“入侵”(invade),由Tomek links去除噪声点或者边界点
2:SMOTE+ENN
和SMOTE+Tomek links方法的思路相似,包含两个步骤
1) 利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T
2) 对T中的每一个样本使用kNN(一般k取3)方法预测,若预测结果和实际类别标签不符,则剔除该样本
二、特征层的不平衡数据分类
在网络安全中,某些类别的网络数据难以获得而导致了非平衡问题,多数类通常是正常的,而少数类是攻击行为,各个类别的样本数量分布虽然具有不平衡性,但这种非平衡性并非在所有特征上都存在
特征层解决不平衡数据分类的思路就是选择