聚类的关键在于根据数据特征导出距离函数。找到距离函数,聚类就成功了一半了。距离函数包括两个样本直接的欧式距离,余弦相似度,person相似度等等。根据不同的情景,选择不同距离函数。距离函数可以另外增加一些类别信息,如控制每个类别下样本的个数。
(1)控制聚类的层数非常重要。控制层数,可以控制,最终的聚类结果,关键是减少时间。
(2)当有几万个样本,要聚成几千个类的时候。减少每个样本和其他样本的比较个数非常重要。
怎么理解数学:首先搞清楚问题,直观理解问题的实质,最后才是看怎么用数学的语言描述问题,解决问题。
本文讨论了聚类算法中距离函数的重要性,并介绍了如何根据数据特征选择合适的距离函数,如欧式距离和余弦相似度等。此外,还强调了控制聚类层数及减少样本间比较次数对于提高效率的作用。
1542

被折叠的 条评论
为什么被折叠?



