一、假设不同类别的训练样例数不同,且反例数量远大于正例
原始训练集:原始数据数量和维度
①过采样(上采样oversampling):通过从已有正例中重复增加正例数量(正例中反复抽取并生成),使正、反例数量相当,然后再进行学习。缺点就是简单地对原始正例样本重复采样,可能导致严重的过拟合。
过采样代表性算法:SMOTE(与单纯重复增加正例数量不同的是,SMOTE是在局部区域通过K-近邻生成了新的正例,降低了过拟合的风险,但同时出现了其他风险)
②欠采样(下采样undersampling):从已有反例中抽取一部分,与已有正例数量相当(换种说法,就是去除一部分反例,使反例的数量与正例相当),然后进行学习。缺点就是可能造成较大的偏差,优点就是降低了时间成本。
欠采样代表性算法:Easyensemble(重复做欠采样,即利用集成学习机制,将全部反例划分为若干个与正例数量相当的集合供不同的学习器使用,然后集成结果。好处就是有效利用了数据,在全局看不会丢失重要信息,毕竟数据是宝贵的;坏处就是训练多个模型时间成本高<欠采样本身的成本是低于过采样的>,同时正例被重复使用,可能造成过拟合)
③阈值移动
二、重复样本对某些loss的影响
几种loss:hinge loss,exponential loss(指数损失),logistic loss(对率损失)
重复样本对某些loss的影响:略
三、重复数据对模型训练的影响
造成较大的偏差,偏向重复样本的分布,可能导致严重的过拟合的结果