参考文献:(1)《Introduction to Data Mining (Second Edition)》,2018,Tan, Pang-Ning;Steinbach, Michael;Karpatne, Anuj;Kumar, Vipin; (2) 范明 范宏建 等译《数据挖掘导论(完整版)》,2011.
注:以下笔记是结合了以上两本书并加入自己的理解而整理,如果有不恰当之处,请提出宝贵意见。
1 Introduction
本文主要对于聚类分析有一个概览:聚类分析的概念,聚类分析的应用领域,聚类(clustering)的类型,簇(cluster)的类型等。
Cluster analysis divides data into groups(clusters) that are meaningful or useful. The groups or clusters should capture the natural structure of the data. In some case, cluster analysis is used for data summarization in order to reduce the size of the data)。
其实,聚类分析就是将数据划分成有意义或有用的组(簇)。这些组(簇)应该能够代表数据的自然结构(natural structure),也就是本质特征。聚类分析可以用来对庞杂的数据进行描述总结,达到概括数据的目的。
注:术语:cluster - 簇;clustering - 聚类;cluster prototype - 簇原型;
2 What is Cluster Analysis?
Given a set of objects, place them in groups such that the objects in a group are similar (or related) to one another and different from (or unrelated to) the objects in other groups. The greater the similarity (or homogeneity) within a group and the greater the difference between groups, the better or more distinct the clustering.
聚类就是根据一组数据对象之间的关系,对数据对象进行分组,目标是:组内的对象是相似的(相关的),不同组中的对象是不同的(不相关的)。组内的相似性(similarity)越小,组间的相似性越大,聚类效果就越好。如下图所示:

注意:
- “segmentation” 和 “partitioning” 这两个词有时也表示聚类。例如,在市场调研行业里面我们会使用"segmentat

最低0.47元/天 解锁文章
957

被折叠的 条评论
为什么被折叠?



