大数据之数据挖掘理论笔记 聚类问题之K-means

大数据之数据挖掘理论笔记   聚类问题之K-means

推荐参考博文: http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html 

推荐参考博文: http://blog.youkuaiyun.com/cyxlzzs/article/details/7416491  试过了,确实可运行。

http://blog.youkuaiyun.com/ghostfromheaven/article/details/6516188


1. 聚类的理解

聚类是一个划分数据对象集的过程。一个数据对象集被划分为几个簇,并且簇内对象之间具有较高的相似性,但与其他簇中的对象却很不相似。划分依据往往是描述对象的属性值评估,通常涉及距离量度。划分方法采用聚类算法,即使对于相同的数据集,不同的聚类方法可能产生不同的聚类结果。

聚类的类标号信息是未知的(即每个训练元组隶属哪一类示先并未知晓),因此聚类是无监督学习。


2. 聚类应用领域

商务智能、图像识别、Web搜索等

聚类用于离群点检测 outlier detection(如:信用卡欺诈检测)


3. 聚类的两种经典方法

基于距离的方法 K-means

基于密度的方法 DBScan


4. K-means (K-均值)

聚类算法核心思想:把数据集中的对象分区,每个分区代表一个簇;簇的形成旨在优化一个客观划分准则(如基于距离的相异性函数,e.g.簇中所有对象与该簇代表形心之间的误差平方和),使得根据数据集的属性,在同一个簇中的对象相似,不同簇中的对象相异。

K-means算法的核心要点:1. K-means算法把簇的形心定义为簇内所有点的均值;2. 根据业务需求K示先给

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值