
随机森林算法
文章平均质量分 90
fansy1990
这个作者很懒,什么都没留下…
展开
-
Mahout随机森林算法源码分析(1)--Describe
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 Mahout中实现决策树算法的有两个(quick start),分别是Partial Implementation和Breiman Example,可以点击链接到相应的网页查看其官方实例。其中Breiman Example是单机版的,而Partial Implementation是可以使用ma原创 2013-09-20 15:44:50 · 6162 阅读 · 15 评论 -
Mahout随机森林算法--分类无标签数据
开发环境:Intellij IDEA14 、Maven3.2、JDK1.7、Hadoop2.6 、mahout0.10源码下载及运行参考:https://github.com/fansy1990/randomforest_classify 设计思路:Mahout 随机森林算法(Random Forest)利用建立好的模型(BuildForest的输出结果)以及描述文件(Describe的输出结果)原创 2015-11-02 23:27:16 · 6291 阅读 · 0 评论 -
Mahout随机森林算法源码分析(2)--BuildForest
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 BuildForecast是在mahout-examples-0.7-job.jar包的org\apache\mahout\classifier\df\mapreduce 路径下。直接运行该类,可以看到该类的使用方式: Usage:原创 2013-09-21 23:56:30 · 5270 阅读 · 16 评论 -
Mahout随机森林算法源码分析(4)
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 Mahout系列之Decision Forest写了几篇,其中的一些过程并没有详细说明,这里就分析一下,作为Decision Forest算法系列的结束篇。 主要的问题包括:(1)在Build Forest中分析完了Step1Mapper后就没有向下分析了,而是直接进行TestForest的分析了,原创 2013-09-25 20:57:10 · 3272 阅读 · 1 评论 -
Mahout随机森林算法分布式策略
关于mahout中的random forests算法在前面已经分析过,这里简要说下其并行策略。 刚开始的时候,我以为这个算法好像没啥并行的地方,一开始就是对全部原始数据进行分析,也没有对原始数据进行分片。然后它的job任务也只有一个mapper,这样如何才能多建立几个mapper?然后这样才能达到几个节点并行吧(一个节点计算一个mapper,这样效率才高过一个节点计算多个mapper)。但是如果原创 2013-09-29 01:00:52 · 6555 阅读 · 10 评论 -
Mahout随机森林算法源码分析(2-4)
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 接上篇,先来说说上篇最后的bestIg和bestIndex的求法。在说这个前,要首先明确一个数组的熵的求法,按照mahout中的源码针对这样的一个数组a=[1,3,7,3,0,2]其熵为: 设sum=1+3+7+3+0+2,则其中pi对应于1/sum、3/sum、7/sum、3/sum、2/su原创 2013-09-24 12:37:57 · 2757 阅读 · 0 评论 -
Mahout随机森林算法源码分析(2-3)
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 接上篇,分析到OptIgSplitl类的computeSplit函数里面的numbericalSplit函数,看这个函数的输入参数data和attr,应该是针对data计算出一个和attr相关的值而已。往下看 double[] values = sortedValues(data, attr); ,原创 2013-09-24 00:55:36 · 2945 阅读 · 0 评论 -
Mahout随机森林算法源码分析(2-1)BuildForest
尼玛,好坑呀! 昨天遇到的问题原来是找错包了,那个Step1Mapper.class 同时在mahout-core-0.7.jar mahout-core-0.7-job.jar mahout-examples-0.7-job.jar 三个包中,但是用到的只是mahout-core-0.7.jar中的Step1Mapper.class,所以只用替换mahout-core-0.7.jar原创 2013-09-22 22:25:20 · 3656 阅读 · 1 评论 -
Mahout随机森林算法源码分析(2-2)
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 今天到BuildForest的主要Mapper操作,前面也说到BuildForest主要的操作都在Mapper里面,而reducer是没有的。本篇介绍其Mapper,Step1Mapper。首先贴上其仿制代码,如下: package mahout.fansy.partial; import j原创 2013-09-23 21:24:19 · 3242 阅读 · 3 评论 -
Mahout随机森林算法源码分析(3)--TestForest
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 首先贴上调用TestForest的代码(win7下面myeclipse调用TestForest,这里要设置Configuration,所以不能直接TestForest.main()来调用): package mahout.fansy.partial.test; import org.apach原创 2013-09-25 00:47:29 · 6085 阅读 · 22 评论