-
定义:
- 一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。
又称(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。
1)数据挖掘能做以下七种不同事情(分析方法):
分类 (Classification)
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例子: a. 信用卡申请者,分类为低、中、高风险
注意: 类的个数是确定的,预先定义好的
估值(Estimation)
分类描述的是离散型变量的输出,而估值处理连续值的输出;分类
例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入
预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
相关性分组或关联规则(Affinity grouping or association rules)
决定哪些事情将一起发生。 例子: a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
聚集(Clustering)
聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。 例子: a. 一些特定症状的聚集可能预示了一个特定的疾病
描述和可视化(Description and Visualization)
是对数据挖掘结果的表示方式。
复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
2) 关联规则
关联规则挖掘过程主要包含两个阶段:
第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),
第二阶段再由这些高频项目组中产生关联规则(Association Rules)
关联规则的分类
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型
2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集
2.基于划分的算法
3.FP-树频集算法
Data Mining实际应用功能可分为三大类六分项来说明:
Classification和Clustering属于分类区隔类;
Regression和Time-series属于推算预测类;
Association和Sequence则属于序列规则类