
数据挖掘
文章平均质量分 71
卅一
没有
展开
-
mahout系列(一)--eclipse利用创建mahout程序
摸索了几天终于有点思路了!!!!原创 2014-10-15 22:07:40 · 1192 阅读 · 0 评论 -
mahout探索之旅---聚类感想(一)
前面《mahout探索之旅——开篇》已经初略地介绍了mahout算法库的组成。这里先谈一谈我对聚类算法开发的感想。不管是学习还是开发一个聚类算法,首先应该考虑的这样三个问题:1)算法核心:算法是用于聚类,聚类核心在什么地方?与其他聚类算法有什么区别?优势在什么地方?2)相似度衡定:既然是聚类算法,应该有度量类的方法,如何把数据归类?如kmeans算法把离k均值最近点归类到相应类。原创 2015-03-11 23:17:45 · 636 阅读 · 0 评论 -
mahout探索之旅——kmeans算法(上)
K-Means算法是聚类算法,k在在这里指的是分类的类型数(根据经验指出会出现几个类别),所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。算法的关键在K个值的选取上,如果均值选得恰当将有利于算法的快速收敛。Kmeans算法的执行过程的伪代码可概括为如下:Kmeans算法时间复杂度:O(tkmn原创 2015-03-12 21:43:55 · 1096 阅读 · 0 评论 -
mahout探索之旅——CART分类回归算法
CART算法原理与理解CART算法的全称是分类回归树算法,分类即划分离散变量;回归划分连续变量。他与C4.5很相似,但是一个二元分类,采用的是类似于熵的GINI指数作为分类决策,形成决策树之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法。GINI指数GINI指数主要是度量数据划分或训练数据集D的不纯度为主,系数值的属性作为测试属性,GINI值越小,表明样本的纯净度越高原创 2015-04-01 19:47:25 · 972 阅读 · 0 评论 -
mahout探索之旅---频繁模式挖掘算法与理解
频繁模式挖掘(先声明一下,文章内容可能你在网上也能找到,但是我参考了几篇文章的优势,使得算法更容易理解)Apriori算法Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来。Apriori算法的用处是挖掘频繁项集的,频繁项集粗原创 2015-04-11 11:50:31 · 1596 阅读 · 0 评论 -
矩阵乘法的Mapreduce实现过程
MapReduce实现矩阵的乘法在学习pageRank算法时看到这么一个小小的编程应用。并且一直自诩只要有原理就能写出代码(只是时间问题),矩阵乘法的原理很简单,基本上理工科生(只要学过线性代数或者相关课程)都知道。但是从来没有想过通过并行计算的方式完成矩阵乘法。 简单粗暴的讲,就是左矩阵M原创 2015-04-17 00:16:53 · 2301 阅读 · 1 评论 -
mahout之旅---分布式推荐算法ALS-MR
最近在为找工作准备,于是把原来学习过的算法和还没有接触过的算法一一翻出来总结一番。ALS-WR算法是我比较欣赏的一个推荐算法。能够决解很多问题,比SVD还要好用,就是实现起来有点费劲。然而这个算法却在网上比较难找,出现最多的就是大神fansy1990的博文,他的博文分析的很全面,有大局观。但是在ALS_WR算法上也出现了一定的迷惑性。让初学者不知所云。基于此决定自己总结供大家参考,再次表示抱歉,贴图是自己手写的,博文里编辑公式还是硬伤。原创 2015-05-13 20:42:07 · 4013 阅读 · 2 评论