《数据挖掘》—— 第1章 引论
文章目录
第1章 引论
1.1 为什么进行数据挖掘
1.2 什么是数据挖掘
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。
1.3 可以挖掘什么类型的数据
-
数据库数据
-
数据仓库
-
事务数据
-
其他类型
1.4 可以挖掘什么类型的模式
数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性 (descriptive)和预测性 (predictive)。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。
类/概念描述:特征化与区分
类或概念描述的获得方法:
- 数据特征化,一般地汇总所研究类(目标类)的数据;
- 数据区分,将目标类与一个或多个可比较类(对比类)进行比较;
- 数据特征化和区分。
挖掘频繁模式、关联和相关性
- 频繁模式:频繁项集(例如,商品的集合)、频繁子序列(序列模式。例如,先购买电脑,再购买相机,最后买内存卡)、频繁子结构(图、树或格);
用于预测分析的分类与回归
- 分类:找出描述和区分数据类或概念的模型(函数),以便能够使用模型预测类标号未知的对象的类标号。(离散的、无序的)
- 回归:建立连续值函数模型。用来预测缺失的或难以获得的数值数据值,而不是离散的类标号。
聚类分析
- 聚类分析数据对象,而不考虑类标号。
离群点分析
- 大部分数据挖掘方法将离群点(outlier)视为噪声或异常而丢弃。然而,在一些应用中(欺诈检测),罕见事件更令人感兴趣。
1.5 使用什么技术
