5、数据挖掘:从基础到数据准备的全面解析

数据挖掘:从基础到数据准备的全面解析

1. 数据挖掘基础与图结构

数据挖掘旨在从大量数据中发现有价值的信息和知识。在数据的表示方面,图结构是一种重要的形式。一个图 $G = (N, p, q)$ 由以下部分组成:
- $N$:有限的节点集合。
- $p : N → B$:将属性映射到节点的函数。
- $q : E → B$:将属性映射到边的函数,其中 $E = (NxN)\IN$,$\IN$ 是 $N$ 中的恒等关系。

节点可以代表对象,边则表示对象之间的空间关系。每个对象都有其对应的属性,这些属性与图中的节点相关联。

常见的数据类型包括数值型、区间型、顺序型、标称型、分类型、字符串型、属性图和图等。

2. 数据准备的重要性与操作分类

在进行数据挖掘实验之前,必须对数据进行准备,使其适合数据挖掘过程。数据准备的操作可以分为以下几类:
- 数据清洗
- 归一化
- 处理噪声、不确定和不可信信息
- 处理缺失值
- 转换
- 数据编码
- 抽象

下面将详细介绍这些操作。

3. 数据清洗

大多数数据挖掘工具要求数据采用特定的格式,例如常见的数据表格。表格的第一行描述属性名称和类属性,后续行包含数据条目,描述案例编号和每个属性的属性值。

输入的数据应遵循预定义的属性名称和类型,不能包含收集数据人员的主观描述,也不能使用未预先定义的词汇。否则,需要在数据清洗步骤中去除这些信息。由于数据清洗是一个耗时的过程,且常常是重复工作,因此最好在建立初始数据库时就使其能够立即用

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值