大数据之数据挖掘理论笔记 聚类问题之K-means
推荐参考博文: http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
推荐参考博文: http://blog.youkuaiyun.com/cyxlzzs/article/details/7416491 试过了,确实可运行。
http://blog.youkuaiyun.com/ghostfromheaven/article/details/6516188
1. 聚类的理解
聚类是一个划分数据对象集的过程。一个数据对象集被划分为几个簇,并且簇内对象之间具有较高的相似性,但与其他簇中的对象却很不相似。划分依据往往是描述对象的属性值评估,通常涉及距离量度。划分方法采用聚类算法,即使对于相同的数据集,不同的聚类方法可能产生不同的聚类结果。
聚类的类标号信息是未知的(即每个训练元组隶属哪一类示先并未知晓),因此聚类是无监督学习。
2. 聚类应用领域
商务智能、图像识别、Web搜索等
聚类用于离群点检测 outlier detection(如:信用卡欺诈检测)
3. 聚类的两种经典方法
基于距离的方法 K-means
基于密度的方法 DBScan
4. K-means (K-均值)
聚类算法核心思想:把数据集中的对象分区,每个分区代表一个簇;簇的形成旨在优化一个客观划分准则(如基于距离的相异性函数,e.g.簇中所有对象与该簇代表形心之间的误差平方和),使得根据数据集的属性,在同一个簇中的对象相似,不同簇中的对象相异。
K-means算法的核心要点:1. K-means算法把簇的形心定义为簇内所有点的均值;2. 根据业务需求K示先给