k-means要完成运算,需要以下输入参数:
1:包含vectors的sequencefile
2:包含初始中心点vector的sequencefile
3:相似性度量
4:convergenceThreshold,达到这个值就不在计算
5:循环次数
最后看数据是怎么读取的:
聚类结果放置在输出目录的CLUSTERED_POINTS_DIR子目录中,通过SequenceFile.Reader类读取,key是IntWritable类型,value是WeightedVectorWritable类型
这里是有一点还没搞清楚的,就是输出为什么要按上面的类型读取,找机会要研究下。
本文详细解析了K-Means算法的核心概念,包括输入参数、数据读取方式以及输出细节,并探讨了输出读取类型的必要性。文章深入分析了K-Means算法在聚类分析中的应用,提供了关于如何选择最佳参数以获得最优聚类结果的指导。
3524

被折叠的 条评论
为什么被折叠?



