我们开发的双机模型数据挖掘软件在研究聚类算法时发现类小波聚类算法在处理低维立方体(通常少于7维)比较合适,在数据记录成倍增长时也有很好的伸缩性。得益于网格聚类算法的特性。
OPTICS聚类算法在处理高维立方体时比较合适,但随着数据量的增加,运算所须时间会增加较多,当然选择好的距离函数如相似度计算,避免如 Euclid距离,也会使计算速度大大提高。采用Euclid距离计算时,聚类5000条记录的运行时间(从数据预处理到结果显示的完整过程)估计是十分钟至二十分钟(1GHz CPU),采用合适的距离函数,运算时间会降低到一分钟以内。
本文探讨了两种聚类算法的特点:类小波聚类算法适用于低维数据,且数据规模增大时仍保持良好的性能;而OPTICS算法更适合处理高维数据,通过选择合适的距离函数可以显著提高计算效率。
7852

被折叠的 条评论
为什么被折叠?



