聚类,就是将相似的事物聚集在一 起,而将不相似的事物划分到不同的类别的过程。
average-linkage算法比较稳定,可以大致地判断聚类数目,聚类效果也不错,在数据量比较小的时候可以使用。
K-means是最为常用的聚类方法之一,有着一个很关键的优点:快.
K-means迭代地进行两步操作。首先随机地给出k个中心的位置,然后把每个数据点归类到离它最近的中心,构造了k个cluster。把中心转移到得到的cluster内部的数据点的平均位置,再次构造新的k个cluster。这个过程中,中心点的位置不断地改变,构造出来的cluster的也在变化。通过多次的迭代,这k个中心最终会收敛并不再移动。
http://blog.youkuaiyun.com/zd0303/article/details/8425563