目录
(1)划分聚类(partitioning clustering)
(2)层次聚类(hierarchical clustering)
(3)基于数据密度的聚类(density based clustering)
(4)基于空间网格的聚类(grid based clustering)
(5)基于统计模型的聚类(model based clustering)
(6)基于图的聚类(graph based clustering)
(7)基于神经网络的聚类(neural network based clustering)
2.1 划分聚类(partitioning clustering)
=> CLARA(clustering large application)
一、 聚类的概念
指根据数据之间的相似性,将数据集合分成若干个子集,每个子集被称为簇cluster,每个簇是从数据中自动发现的具有共同特性的一类数据。
聚类结果反映了训练数据的分布规律,即可直接用数据分组结果来反映这种分布规律,也可进一步将簇中数据拟合为相应的统计分布。
聚类结果由数据点到簇的归属来决定,其隶属度(membership)有明确的和模糊的两种。 明确的隶属度为1或0,表示是否隶属。——对应硬聚类(hard clustering)
模糊的隶属度取值在区间[0,1]之间,表示隶属的程度。——软聚类(soft clustering,或模糊聚类fuzzy clustering)
聚类问题可以归结为一个从数据的所有不同组合方案中寻找最优组合的组合优化(combinational optimization)问题。
二、聚类分析中需要考虑的关键问题:
1. 数据相似性
2. 聚类优化方法
3. 可伸缩性问题
4. 聚类形状(clustering shape)
5. 局外点问题
三、详细介绍
1. 数据相似性
在定义聚类优化目标时,基本准则是簇内数据相似、簇间数据不相似。
以几何方式度量相似性——距离.
常用距离计算公式
| 名称 | 计算公式 |
| 欧式(Euclidean) | ![]() |
| 曼哈顿(City block/Manhattan) | ![]() |
| 闵可夫斯基距离(Minkowski) | ![]() |
| 契比雪夫(Chebyishev) | ![]() |
| 马氏距离(mahalanobis) | ![]() |
| ... | .......... |

本文介绍了聚类分析的基本概念,强调了数据相似性和聚类优化方法的重要性。聚类方法包括划分聚类(如K-means和K-中心点)、层次聚类、基于密度、空间网格、统计模型、图和神经网络的聚类。其中,K-means以其简单和效率著称,但易受初始点选择影响;K-中心点则尝试通过非中心点数据改进聚类质量。CLARA作为一种应对大数据的策略,通过抽样提高效率。





最低0.47元/天 解锁文章
3308

被折叠的 条评论
为什么被折叠?



