
DATA_MINING
iteye_5035
这个作者很懒,什么都没留下…
展开
-
数据挖掘笔记-分类-决策树-1
之前一直做的都是J2EE,最近开始接触数据挖掘,特做笔记记录一下。第一次写东西,写的不好,望大家谅解。先上一些基础概念,大致了解下决策树这个东西:决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相...2014-05-28 14:21:00 · 224 阅读 · 0 评论 -
数据挖掘笔记-聚类-Canopy-1
Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是,从一个点集合开始并且随机删除一个,创建一个包含这个点的Canopy,并在剩余的点集合上迭代。对于每个点,如果它的距离第一个点的距离小于T1,然后这个点就加入这个聚集中。除此之外,如果这个距离<T2,然...2014-06-12 18:02:00 · 571 阅读 · 0 评论 -
数据挖掘笔记-关联规则-FPGrowth-2
前面是单机版的实现,现在通过MapReduce来实现FPGrowth算法,主要用了两个MR,具体过程如下:1、第一个MR扫描所有数据集统计数据集中的频繁一项集,即每个项的出现次数。2、读取第一个MR产生的文件,对频繁一项集排序,然后上传到HDFS上。3、第二个MR扫描所有数据集,并根据第二步产生的排序好的频繁一项集来得出频繁项集。第二个MR的Map阶段过程:首先根据排好序的频繁一...2014-06-05 17:31:00 · 266 阅读 · 0 评论 -
数据挖掘笔记-关联规则-FPGrowth-1
由于Apriori算法需要多次扫描事务数据库,需要生成候选项集,大大增加了时间与空间的代价,FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,它不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。FP-growth算法比Apriori算法快一个数...2014-06-02 16:55:00 · 277 阅读 · 0 评论 -
数据挖掘笔记-关联规则-Apriori-1
今天看了一下关联规则分析中的Apriori算法,先了解下基本概念:关联规则分析用于发现隐藏在大型数据集中的有意义的联系。在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。•关联规则挖掘形式化定义:•原始数据描述设I ={i1, i2,…,im}是所有项(item)的集合,若干项的集合,称为项集(Item Se...2014-05-29 17:17:00 · 351 阅读 · 0 评论 -
数据挖掘笔记-分类-决策树-5
上篇文章里面虽然结合hadoop用到mapreduce去计算属性的增益率,但是发现整个程序似乎也并没有做到并行化处理。后面又看了一些网上的资料,自己又想了想,然后又重新实现了一下决策树,大体思路如下:1、将一个大数据集文件拆分成N个小数据集文件,对数据做好预处理工作,上传到HDFS2、计算HDFS上小数据集文件的最佳分割属性与分割点3、汇总N个小数据集文件的最佳划分,投票选出最佳划分...2014-05-28 16:38:00 · 243 阅读 · 0 评论 -
数据挖掘笔记-分类-决策树-4
之前写的代码都是单机上跑的,发现现在很流行hadoop,所以又试着用hadoop mapreduce来处理下决策树的创建。因为hadoop接触的也不多,所以写的不好,勿怪。 看了一些mahout在处理决策树和随机森林的过程,大体过程是Job只有一个Mapper处理,在map方法里面做数据的转换收集工作,然后在cleanup方法里面去做决策树的创建过程。然后将决策树序列化到HDFS上面,分...2014-05-28 16:13:00 · 211 阅读 · 0 评论 -
数据挖掘笔记-分类-决策树-3
了解了一些决策树的构建算法后,现在学习下随机森林。还是先上一些基本概念:随机森林是一种比较新的机器学习模型。顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一...2014-05-28 15:32:00 · 208 阅读 · 0 评论 -
数据挖掘笔记-分类-决策树-2
接着上面说下决策树的一些其他算法:SLIQ、SPRINT、CART。这些算法则是根据Gini指标来计算的。SLIQSLIQ(Supervised Learning In Quest)利用三中数据结构来构造树,分别是属性表、类表和类直方图。SLIQ算法在建树阶段,对连续属性采取预先排序技术与广度优先相结合的策略生成树,对离散属性采取快速求子集算法确定划分条件。具体步骤如下:...2014-05-28 14:51:00 · 226 阅读 · 0 评论 -
数据挖掘笔记-聚类-Canopy-2
Canopy并行化处理在Mahout里面有很好的实现,网上有很多人都做过相关的分析,有的写的很详细,本来只想看看Mahout Canopy源码就好了,但还是觉得自己记录下也好。我看的是mahout-distribution-0.9版本。 首先先看下CanopyDriver类:run(String[] args)方法里面是一些参数的设置。public static void r...2014-06-13 12:45:00 · 217 阅读 · 0 评论