
Data Mining
文章平均质量分 67
caiandyong
浮躁的心不会积淀出成功的土壤,清幽的路上风景更美好!
展开
-
在ubuntu上安装weka
0.前提系统已有java环境1.解压缩安装包caiyong@caiyong:/home/caiyong/setup/weka$sudo unzip weka-3-6-12.zip -d /opt/caiyong@caiyong:/opt/weka$ sudo mv weka-3-6-12/ wekacaiyong@caiyong:/opt$ sudo chown原创 2015-04-09 22:07:31 · 2170 阅读 · 0 评论 -
关联规则介绍
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。定义: 假设是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个事务都与一个原创 2015-06-16 15:01:16 · 6569 阅读 · 0 评论 -
数据归一化和两种常用的归一化方法
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为离差标准原创 2015-07-06 20:44:34 · 1259 阅读 · 1 评论 -
Aprior算法简化算法——FP-Tree思想与实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:转载 2015-09-23 14:17:00 · 874 阅读 · 0 评论 -
FP-Growth算法
1.FP-Growth算法 FP-Growth算法(Frequent Pattern-growth)使用了一种紧缩的数据结构频繁模式树(Frequent Pattern tree,简称FP-Tree)来存储查找频繁项集所需要的全部信息。2.FP-tree (1)FP-tree是一种特殊的前缀树,其是满足下列条件的一个树结构:它由一个根节点(值为null)原创 2015-09-23 10:32:25 · 3993 阅读 · 0 评论