前言:
本文主要翻译sklearn文档Clustering的内容,并进行相关算法的解析和代码实现。本文由callback发布于http://blog.youkuaiyun.com/u010248552/article/details/78476981, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请留言站内。谢谢合作!
概括
本文由来是看见了sklearn的clustering的聚类数据图,如下,对于聚类方法能很好的一眼看出来你需要哪个算法去实现不同场景和不同需求的数据聚类任务。有了这张图,你可以很快的知道你要选什么算法,但是每个算法有它算法的本身特性,这也要求我们在调节算法时知道它的算法过程,各种阈值的合适取值。
下面的表也是对应不同算法的一些细节对比,最关键的就是scale规模,usecase使用场景,和基本的几何原理。
非几何聚类时有用的集群有一个特定的形状,即非流形,欧几里得距离不是正确的度量的标准。这种情况出现在上图的两大行。