Data Mining

定义:
一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。

又称(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。

1)数据挖掘能做以下七种不同事情(分析方法):  

 分类 (Classification) 

首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。  

例子:  a. 信用卡申请者,分类为低、中、高风险 

注意: 类的个数是确定的,预先定义好的

估值(Estimation)
分类描述的是离散型变量的输出,而估值处理连续值的输出;分类


的类别是确定数目的,估值的量是不确定的

例子:   a. 根据购买模式,估计一个家庭的孩子个数   b. 根据购买模式,估计一个家庭的收入

预言(Prediction) 

通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

相关性分组或关联规则(Affinity grouping or association rules)

决定哪些事情将一起发生。   例子:  a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)

聚集(Clustering) 

聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。   例子:  a. 一些特定症状的聚集可能预示了一个特定的疾病

描述和可视化(Description and Visualization)

是对数据挖掘结果的表示方式。

复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

2) 关联规则

关联规则挖掘过程主要包含两个阶段:

第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),

第二阶段再由这些高频项目组中产生关联规则(Association Rules)

关联规则的分类

1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型

2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。

3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。

关联规则挖掘的相关算法

1.Apriori算法:使用候选项集找频繁项集

2.基于划分的算法

3.FP-树频集算法


Data Mining实际应用功能可分为三大类六分项来说明:

Classification和Clustering属于分类区隔类;

Regression和Time-series属于推算预测类;

Association和Sequence则属于序列规则类


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值