处理噪声数据源中具有预测性但不可预测的属性
在现实世界的数据处理中,数据往往并非完美无缺,噪声的存在是一个常见且棘手的问题。噪声会对数据的解读、基于数据创建的模型以及依据数据做出的决策产生不利影响。在分类学习的背景下,数据由实例组成,每个实例由属性值向量和类标签表示。属性可分为不可预测属性、具有预测性且可预测的属性以及具有预测性但不可预测的属性。本文将重点探讨如何处理具有预测性但不可预测的属性中的噪声。
1. 引言
现实世界的数据很少能如我们期望的那样完美,数据在采集、传输和转录等过程中几乎不可避免地会引入错误,这些错误数据即噪声。噪声通常会对数据的解读、基于数据创建的模型以及依据数据做出的决策产生不利影响。由于手动处理噪声既费力又耗时,还容易出错,因此需要有效且高效的自动化噪声处理方法。
在分类学习中,数据由实例构成,每个实例由属性值向量和类标签表示。属性可分为三类:
- 不可预测属性 :对预测类没有作用或不相关,可以在学习前通过特征选择方法丢弃。
- 具有预测性且可预测的属性 :可由类和其他属性预测。
- 具有预测性但不可预测的属性 :虽对预测类有用,但不能由类和其他属性预测。
通常有属性噪声和类噪声两种类型的噪声。以往大部分研究集中在处理类噪声,如处理矛盾实例(相同实例有不同类标签)或错误分类(实例被标记为错误的类)。相比之下,对属性噪声的关注较少,然而在现实世界中,属性噪声更易出现。
在处理属性噪声的少数研究中,LENS旨在通过对干净数据的生成、噪声的生成和损坏过程进行建模,以实现对噪声的识