【聚类】专题总结——概览 + 划分聚类

本文介绍了聚类分析的基本概念,强调了数据相似性和聚类优化方法的重要性。聚类方法包括划分聚类(如K-means和K-中心点)、层次聚类、基于密度、空间网格、统计模型、图和神经网络的聚类。其中,K-means以其简单和效率著称,但易受初始点选择影响;K-中心点则尝试通过非中心点数据改进聚类质量。CLARA作为一种应对大数据的策略,通过抽样提高效率。

目录

一、 聚类的概念

二、聚类分析中需要考虑的关键问题:   

三、详细介绍

1. 数据相似性

 2. 聚类优化方法

(1)划分聚类(partitioning clustering)     

(2)层次聚类(hierarchical clustering)     

(3)基于数据密度的聚类(density based clustering)     

(4)基于空间网格的聚类(grid based clustering)   

(5)基于统计模型的聚类(model based clustering)     

(6)基于图的聚类(graph based clustering)     

(7)基于神经网络的聚类(neural network based clustering)     

 2.1 划分聚类(partitioning clustering)     

1)K-means聚类方法     

2)K-中心点聚类   

=>  CLARA(clustering large application)


一、 聚类的概念

指根据数据之间的相似性,将数据集合分成若干个子集,每个子集被称为簇cluster,每个簇是从数据中自动发现的具有共同特性的一类数据。

聚类结果反映了训练数据的分布规律,即可直接用数据分组结果来反映这种分布规律,也可进一步将簇中数据拟合为相应的统计分布。

聚类结果由数据点到簇的归属来决定,其隶属度(membership)有明确的和模糊的两种。 明确的隶属度为1或0,表示是否隶属。——对应硬聚类(hard clustering)

模糊的隶属度取值在区间[0,1]之间,表示隶属的程度。——软聚类(soft clustering,或模糊聚类fuzzy clustering)

聚类问题可以归结为一个从数据的所有不同组合方案中寻找最优组合的组合优化(combinational optimization)问题。

二、聚类分析中需要考虑的关键问题:   

1. 数据相似性   

2. 聚类优化方法     

3. 可伸缩性问题     

4. 聚类形状(clustering shape)     

5. 局外点问题

三、详细介绍

1. 数据相似性

在定义聚类优化目标时,基本准则是簇内数据相似、簇间数据不相似。

以几何方式度量相似性——距离.

常用距离计算公式

名称 计算公式
欧式(Euclidean)
曼哈顿(City block/Manhattan)
闵可夫斯基距离(Minkowski)
契比雪夫(Chebyishev)
马氏距离(mahalanobis)
... ..........

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值