在机器学习中,比较侧重于算法的设计和实施,随着计算机的发展,想着如何更快更安全地处理数据,不过,在运用在各种机器学习的算法之前,需要首先对数据有一个比较好的考量。这里研究的问题是样本的不均衡性问题。
对于常规的机器学习算法,决策树类的,如ID3,C4.5,CART等,在最终划分出子集之后,子集的类别是依据于“少数服从多数”的原则,也即是说,少数的数据效应被忽略,大叔的数据效应被放大,这样对于分类而言就会造成误差。那么为什么会出现这种情况呢?一方面的原因是由于最开始用于分类的数据本身就是不均衡的,类别之间的数据量相差较大,其次就是正常分类时出现的正常情况。但是,对于分类之前,数据的不均衡性的考察,很少会有人去关注和处理。
不仅是对于决策树算法而言,对于神经网络,也是如此,对于神经网络而言,少数的类别直接作为噪声处理了,而学习的只是大数的类别。
然而,并不是所有的算法都有这样的缺点,对于SVM而言,由于其学习的是一类特征函数,基于该特征函数进行超平面的划分,只要最初所给的数据,可以让其学习较多的信息,那么数据的不均衡性对它则无明显影响,即便是在后面的预测中,也是如此。
现在,对于数据不均衡性的研究,逐步提上日程,常规的也有如下几种方法:
抽样
通过抽样方法的运用,将大的数据集变下,或者将小的数据集变大
对特征函数加罚项
在算法的设计中,加入不均衡性的权项,使得算法的实施,做了不均衡性的修正
很多分类算法可以提高数据的分类效果,但是,对于数据本身性质的考察,会更有助于方法的选择和方案的实施,以及结果的解释。