1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。
2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
本文探讨了Canopy聚类算法的关键要素,包括轻量距离度量的选择、T1/T2阈值设定及其对聚类结果的影响。此外还讨论了Canopy在消除孤立点方面的优势,并提出了一种基于Canopy内部数据点数量确定K-means聚类中心的方法。
355

被折叠的 条评论
为什么被折叠?



