机器学习总结(十):常用聚类算法(Kmeans、密度聚类、层次聚类)及常见问题
任务:将数据集中的样本划分成若干个通常不相交的子集。性能度量:类内相似度高,类间相似度低。两大类:1.有参考标签,外部指标;2.无参照,内部指标。距离计算:非负性,同一性(与自身距离为0),对称性,直递性(三角不等式)。包括欧式距离,曼哈顿距离等等。(1) K均值聚类步骤:1.随机选择k个样本作为初始均值向量;2.计算样本到各均值向量的距离,把它划到距离最小的簇;3.计算新的均值
原创
2017-05-06 10:48:02 ·
7867 阅读 ·
0 评论