高维不平衡大数据分类及过采样技术解析
1. 高维数据分类与属性约简挑战
在处理高维数据时,我们面临着诸多挑战。现有的分类方法能够处理连续数据、分类数据和事件时间数据,但在处理不平衡数据集时,含有大量分类数据值的属性集往往会导致结果不准确。
为了解决这个问题,大特征数据集的属性约简受到了广泛关注。其目的是从决策系统中删除多余的条件属性,以减少存储并提高检索效率。然而,目前大多数选择信息属性集的技术都是针对单一类型属性开发的,要为异构数据推导出有效的属性约简技术具有很大的挑战性。
处理异构条件属性约简的技术主要分为两类:
- 预处理为单一类型数据 :将数据从一种形式转换为另一种形式,例如从符号值转换为实数值,反之亦然。但这种方法可能会导致互信息的丢失。
- 使用不同标准测量不同类型的属性 :然而,测量和组合不同属性有时可能会导致不理想的结果。
这两类方法都未能充分考虑异构属性之间的替代能力、它们对决策属性的分类能力以及决策标签的不一致性。
粗糙集在处理条件属性和决策属性之间的不一致性方面具有一定的优势。它利用手头现有的数据进行属性约简,与其他方法不同的是,它能够保留原始数据的不一致性。经典粗糙集只能处理符号/整数值属性,而模糊粗糙集作为粗糙集模型的扩展,被开发用于处理实数值属性。通过使用模糊粗糙集进行属性约简,并结合一些启发式算法来寻找约简集,能够在一定程度上解决条件属性和决策标签之间的不一致性问题。但无论是经典粗糙集还是模糊粗糙集,都无法精确处理异构数据。
2. 研究方法架构
本研究基于实验分析,采用了一
超级会员免费看
订阅专栏 解锁全文
652

被折叠的 条评论
为什么被折叠?



