不平衡数据集
不平衡分类问题是指在一个分类问题中某些类的样本数量远多于其他类别的样本数量。类别不平衡的数据普遍存在于现实生活的许多应用中.例如,用于疾病诊断预测的病历数据中,许多少见却非常重要的疾病样本数远小于正常或常见的疾病样本数。若将传统分类器应用于这些场景而不对类别的不平衡性做任何处理,就会使得多数类淹没少数类(往往是更重要的),得不到好的分类效果。
研究人员针对类别不平衡数据的分类问题,相继提出了多个不同的解决办法,可以将其分为特征选择、数据分布调整、模型训练算法几类。
1. 特征选择
特征选择的目的是从全部特征中选择更适合于类别不平衡数据、能反映类别不平衡特点的子集来构建分类器模型,从而使得分类器在类别不平衡的前提下达到较好的性能.
特征选择并不是一种用于分类的方法,而是一种对数据集进行过滤的方法,属于数据分类中的数据预处理阶段,但是通过特征选择方法可以有效的去除数据集中的冗余特征和无关特征,减少无关数据对分类器的影响,使得最后生成的分类器更加的简洁容易理解,并有效的提高分类器的性能。
Relief算法是特征选择中的经典算法,在大量的实验研究中都证明了能够在平衡数据集上取的较好的效果。
Relief算法的基本思路如下:首先从数据集中随机选择一个样本X,然后找到与其距离最近的同类样本H,称其为Near Hit,再找到与其距离最近的不同类样本M,称其为Near Miss,然后按照下面的规则更新每个特征的权重:如果X与H在某特征上的距离要小于X与M在该特征上的距离,则说明该特征能够使得同类之间的样本更近,不同类之间的样本远离,因此就增加该属性的权重;如果X与H在某特征上的距离要大于X与M在该特征上的距离,则说明该特征不能够使得同类之间更近,不同类之间远离,因此要减少该属性的权重。将该过程重复m次,不断的调整每个特征的权重,最终得到各特征的权重。特征的权重值越大,表示该特征的分类能力越强,反之表示该特征的分类能力越弱。
特征选择方法SYMON
特征选择方法FASTFAST 方法的基本原理是基于ROC 曲线的面积,对每一个特征训练一个简单的线性分类器,并通过滑动决策边界来得到最优的分类器
由于采样技术和算法层面的方