canopy算法

最新推荐文章于 2021-03-26 02:29:18 发布

翻译最新推荐文章于 2021-03-26 02:29:18 发布 · 2.5k 阅读

hadoop 专栏收录该内容

49 篇文章

订阅专栏

（1）、将数据集向量化得到一个list后放入内存，选择两个距离阈值：T1和T2，其中T1 > T2，对应上图，实线圈为T1，虚线圈为T2，T1和T2的值可以用交叉校验来确定；

（2）、从list中任取一点P，用低计算成本方法快速计算点P与所有Canopy之间的距离（如果当前不存在Canopy，则把点P作为一个Canopy），如果点P与某个Canopy距离在T1以内，则将点P加入到这个Canopy；

（3）、如果点P曾经与某个Canopy的距离在T2以内，则需要把点P从list中删除（不过在在新的mahout采用的不加入新的Collection 这样后面处理的时候就不包含点P），这一步是认为点P此时与这个Canopy已经够近了，因此它不可以再做其它Canopy的中心了；

（4）、重复步骤2、3，直到list为空结束

Canopy聚类是一种简单、快速、但不太准确的聚类方法。
该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。

while(没有标记的数据点){
选择一个没有强标记的数据点p
把p看作一个新Canopy c的中心
离p距离<T1的所有点都认为在c中，给这些点做上弱标记
离p距离<T2的所有点都认为在c中，给这些点做上强标记
}

Canopy聚类常作为更强聚类方法的初始步骤。
mahout Canopy聚类实现，采用了两个map-reduce job
第一个Job org.apache.mahout.clustering.canopy.CanopyDriver：
mapper:org.apache.mahout.clustering.canopy.CanopyMapper
对划分到每个mapper的点根据阈值T1，T2标记Canopy，输出在该mapper上所有Canopy的中心；
mahout实现对原算法略做改动，而避免需先保存所有的点
修改后的算法org.apache.mahout.clustering.canopy.addPointToCanopies
对于一个数据点，遍历已有Canopy{
该点到某Canopy距离<T1,则加入该Canopy；
若点到某Canopy距离<T2,则标记该点已于该Canopy强关联；
}
若该点不存在强关联的Canopy，则为其创建一个新Canopy
reducer:org.apache.mahout.clustering.canopy.CanopyReducer
整个Job就一个reduce任务,对mapper输出的所有点再次使用Canopy聚类,并输出中心点
第二个Job org.apache.mahout.clustering.canopy.ClusterDriver
使用第一个Job输出的中心点，采用最近距离原则对原数据点进行聚类
用Canopy聚类作为其他方法的初始步骤时，通常不执行该Job
参数调整：
当T1过大时，会使许多点属于多个Canopy，可能会造成各个簇的中心点间距离较近，各簇
间区别不明显；
当T2过大时，增加强标记数据点的数量，会减少簇个个数；T2过小，会增加簇的个数，同时
增加计算时间

另外：mahout提供了几种常见距离计算的实现 ，均实现org.apache.mahout.common.distance.DistanceMeasure接口
CosineDistanceMeasure：计算两向量间的夹角
SquaredEuclideanDistanceMeasure：计算欧式距离的平方
EuclideanDistanceMeasure：计算欧式距离
ManhattanDistanceMeasure：马氏距离，貌似图像处理中用得比较多
TanimotoDistanceMeasure：Jaccard相似度，T(a, b) = a.b / (|a|^2 + |b|^2 - a.b)
以及带权重的欧式距离和马氏距离。

需要注意：

1. 首先是轻量距离量度的选择，是选择数据模型其中的一个属性，还是其它外部属性这对canopy的分布最为重要。

2. T1, T2的取值影响到canopy重叠率f，以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后，可以删除那些包含数据点数目较少的canopy，往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好