数据挖掘
文章平均质量分 80
theonlytank2011
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mahout 源码解析之聚类--MinHash
MinHash作为一种聚类技术,具体的原理请参见淘宝的博客。在Mahout的实现中其位于包org.apache.mahout.clustering.minhash中,HashFunction为一个接口,HashFactory作为一个工厂类,实现了四种哈希函数。具体的实现位于类MinHashDriver中。这个类没有提供单机版本的实现,所做的是基于Map-Reduce的实现。在输入的参数上k原创 2013-07-30 14:52:30 · 1616 阅读 · 0 评论 -
mahout 源码解析之聚类--聚类迭代模型
在前面讲聚类策略时,包org.apache.mahout.clustering.iterator里面还有几个类没有进行讲解,这次做下收尾工作。ClusterIterator利用ClusterClassifier和指定的迭代次数将样本进行聚类。其中有三个具体的函数。iterate主要对内存中的数据进行聚类,输入就为一个Vector类型的迭代器。 public ClusterClass原创 2013-07-28 15:42:31 · 988 阅读 · 0 评论 -
mahout 源码解析之聚类--聚类模型
mahout聚类模型主要存在于包org.apache.mahout.clustering中,主要包含Model、ClusterObservations和GaussianAccumulator几部分。一、ModelModel主要定义了以下几个函数: double pdf(O x);//计算x属于此模型的概率 void observe(O x);//将加入此模型 void observ原创 2013-07-27 15:58:31 · 987 阅读 · 1 评论 -
mahout 源码解析之聚类--聚类分类模型
聚类分类模型代码主要在包org.apache.mahout.clustering.classify里面,其主要利用一系列的聚类簇和聚类策略对样本进行分类。我们先来看看类ClusterClassifier。一、ClusterClassifierClusterClassifier有四个属性,分别是聚类策略序列化存放文件路径、一系列的聚类簇、聚类簇类别和聚类策略。 private s原创 2013-07-28 15:08:59 · 1657 阅读 · 0 评论 -
mahout 源码解析之聚类--K-Means,FuzzyKMeans
K-Means算法的实现在包org.apache.mahout.clustering.kmeans中,其实现了单机版本和Map-Reduce两种版本的算法。我们先来看类KMeansDriver,在这个类里面我们先从run函数开始看起,首先其利用RandomSeedGenerator随机选取输入样本中的K个作为最先的随机种子。 if (hasOption(DefaultOptionCrea原创 2013-07-30 15:18:35 · 1820 阅读 · 0 评论 -
mahout 源码解析之聚类--Canopy算法
Canopy算法的实现在包org.apache.mahout.clustering.canopy中。一、算法基本思想算法基本思想如下:(1)、将数据集向量化得到一个list后放入内存,选择两个距离阈值:T1和T2,其中T1 > T2,T1和T2的值可以用交叉校验来确定;(2)、从list中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canop原创 2013-07-26 15:46:52 · 3464 阅读 · 2 评论
分享