多类不平衡大数据分析与儿童爱好推荐系统
1. 多类不平衡大数据处理
1.1 采样方法的局限性
在处理不平衡数据时,欠采样和过采样方法都存在一定弊端。欠采样会忽略一些重要实例,从而降低分类准确性;而过采样会创建额外实例,增加训练时间,并且复制实例可能导致过拟合。为避免这些问题,混合或集成采样技术应运而生,它结合了欠采样和过采样的优点。
1.2 混合采样技术示例
- Cao等人的集成重采样技术 :通过SMOTE方法进行过采样,使用OSS(单边选择)进行欠采样。SMOTE创建人工实例,OSS去除边界和噪声实例,然后将结果数据集输入分类器进行分析。该集成技术在解决分类过拟合问题上比单纯的SMOTE方法更可行、有效。
- Junsomboon等人的技术 :结合过采样和欠采样来平衡不平衡数据。欠采样使用邻居清理规则(NCL)从多数类中去除异常实例,然后将结果数据集输入SMOTE。这种方法提高了召回率,进而提升了准确性。
1.3 算法级方法
由于原始数据集本身可能受时间限制,采样方法对于一些数据不断增长的领域并不适用,因为它们通常需要更多的计算时间和内存空间。以下是一些算法级方法:
- SVM主动学习 :从随机选择的较小实例池中选择信息丰富的实例,只查询系统而不搜索整个数据集,能快速解决问题,具有有竞争力的预测性能,并能处理未标记实例。
- 成本敏感的最小均方(LMS)算法扩展 :通过对不同实例的不同权重惩罚误
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



