27、多类不平衡大数据分析与儿童爱好推荐系统

多类不平衡大数据分析与儿童爱好推荐系统

1. 多类不平衡大数据处理

1.1 采样方法的局限性

在处理不平衡数据时,欠采样和过采样方法都存在一定弊端。欠采样会忽略一些重要实例,从而降低分类准确性;而过采样会创建额外实例,增加训练时间,并且复制实例可能导致过拟合。为避免这些问题,混合或集成采样技术应运而生,它结合了欠采样和过采样的优点。

1.2 混合采样技术示例

  • Cao等人的集成重采样技术 :通过SMOTE方法进行过采样,使用OSS(单边选择)进行欠采样。SMOTE创建人工实例,OSS去除边界和噪声实例,然后将结果数据集输入分类器进行分析。该集成技术在解决分类过拟合问题上比单纯的SMOTE方法更可行、有效。
  • Junsomboon等人的技术 :结合过采样和欠采样来平衡不平衡数据。欠采样使用邻居清理规则(NCL)从多数类中去除异常实例,然后将结果数据集输入SMOTE。这种方法提高了召回率,进而提升了准确性。

1.3 算法级方法

由于原始数据集本身可能受时间限制,采样方法对于一些数据不断增长的领域并不适用,因为它们通常需要更多的计算时间和内存空间。以下是一些算法级方法:
- SVM主动学习 :从随机选择的较小实例池中选择信息丰富的实例,只查询系统而不搜索整个数据集,能快速解决问题,具有有竞争力的预测性能,并能处理未标记实例。
- 成本敏感的最小均方(LMS)算法扩展 :通过对不同实例的不同权重惩罚误

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值