数据编辑算法与随机动作逻辑的研究
1. 数据编辑算法概述
在数据处理和机器学习领域,编辑算法对于提高分类准确性至关重要。因为训练数据中存在的噪声、错误标签、离群点以及不同类别区域之间的重叠,都会导致分类器性能下降。常见的编辑算法有基于净化算法的方法、神经网络集成编辑(NNEE)以及使用局部支持向量机进行降噪等,但这些方法大多依赖参数调整。
1.1 现有编辑算法
- 净化算法 :该算法不仅会从训练集(TS)中移除一些项目,还会更改某些项目的类别标签,它使用两个输入参数来实现这一目的。
- 神经网络集成编辑(NNEE) :基于净化算法考虑和评估编辑方法,训练一个神经网络集成,然后用于重新标记一些项目,也是参数化的方法。
- 局部支持向量机降噪 :通过局部最大边际方法减少实例学习中的噪声,其性能同样依赖于参数调整。
2. 编辑通过同质聚类(EHC)算法
2.1 算法原理
EHC算法采用了一种完全不同的非参数策略,用于去除噪声、错误标记和接近边界的数据项。它基于最近提出的RHC算法,通过迭代地对训练集应用k - 均值聚类,直到所有构建的聚类只包含特定类别的项目,即达到同质状态。在这个过程中,所有只包含一个项目的聚类(单项目聚类)都会被移除。
2.2 具体步骤
- 初始化 :将训练集TS视为一个非同质聚类,计算该聚类中每个类别的均值项目(类均值)。如果聚
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



