数据挖掘 概念与技术 笔记(Data Mining concepts and Techniques Third Edition Notebook)

数据挖掘是一个涉及多学科的领域,包括数据清洗、集成、选择、变换、挖掘、模式评估和知识表示等步骤。它可以应用于数据库数据、数据仓库数据和事务数据,寻找特征化、频繁模式、关联性、分类、聚类和离群点等模式。数据挖掘技术融合了统计学、机器学习、模式识别等多个领域的技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第1章 引论

1.1 什么是数据挖掘?

数据挖掘是一个多学科领域,数据挖掘可以用多种方法定义。它也是数据中的知识发现(KDD)的同义词。而另一些人只是把数据挖掘视为只是发现过程的一个基本步骤。具体步骤:

  1. 数据清洗
  2. 数据集成
  3. 数据选择
  4. 数据变换
  5. 数据挖掘
  6. 模式评估
  7. 知识表示

1.2 什么类型数据可以挖掘?

数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。在应用中,数据最基本形式就是**(1)数据库数据(2)数据仓库数据(3)事务数据**。本书提供的概念和技术集中考虑这类数据。当然数据挖掘也可以用于其他类型数据(例如:数据流、有序/序列数据、图和网络数据、空间数据、文本数据、多媒体数据和万维网)
1)数据库数据
数据库系统,也称之为数据库管理系统(DBMS),由一组内部相关的数据(称之为数据库)和一组管理和存取数据的软件程序组成。当数据挖掘用于关系数据库时,可以进一步搜索趋势和数据模式。关系数据库时数据挖掘最常见、最丰富的信息源,因此数据库数据是数据挖掘研究的一种主要数据形式。
2)数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
数据仓库也称之为数据立方体(data cube)的多位数据结构建模。多位数据挖掘(又称探索式多位数据挖掘)以OLAP风格在多位空间进行数据挖掘。
OLAP是联机分析处理,是一种分析技术。

3)事务数据
一般来说,事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班的订票,或者一个用户的网页点击。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值