数据挖掘:从基础到数据准备的全面解析
1. 数据挖掘基础与图结构
数据挖掘旨在从大量数据中发现有价值的信息和知识。在数据的表示方面,图结构是一种重要的形式。一个图 $G = (N, p, q)$ 由以下部分组成:
- $N$:有限的节点集合。
- $p : N → B$:将属性映射到节点的函数。
- $q : E → B$:将属性映射到边的函数,其中 $E = (NxN)\IN$,$\IN$ 是 $N$ 中的恒等关系。
节点可以代表对象,边则表示对象之间的空间关系。每个对象都有其对应的属性,这些属性与图中的节点相关联。
常见的数据类型包括数值型、区间型、顺序型、标称型、分类型、字符串型、属性图和图等。
2. 数据准备的重要性与操作分类
在进行数据挖掘实验之前,必须对数据进行准备,使其适合数据挖掘过程。数据准备的操作可以分为以下几类:
- 数据清洗
- 归一化
- 处理噪声、不确定和不可信信息
- 处理缺失值
- 转换
- 数据编码
- 抽象
下面将详细介绍这些操作。
3. 数据清洗
大多数数据挖掘工具要求数据采用特定的格式,例如常见的数据表格。表格的第一行描述属性名称和类属性,后续行包含数据条目,描述案例编号和每个属性的属性值。
输入的数据应遵循预定义的属性名称和类型,不能包含收集数据人员的主观描述,也不能使用未预先定义的词汇。否则,需要在数据清洗步骤中去除这些信息。由于数据清洗是一个耗时的过程,且常常是重复工作,因此最好在建立初始数据库时就使其能够立即用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



