Cluster analysis :Basic Concepts and Algorithms -- Part 1 Overview

参考文献:(1)《Introduction to Data Mining (Second Edition)》,2018,Tan, Pang-Ning;Steinbach, Michael;Karpatne, Anuj;Kumar, Vipin; (2) 范明 范宏建 等译《数据挖掘导论(完整版)》,2011.
注:以下笔记是结合了以上两本书并加入自己的理解而整理,如果有不恰当之处,请提出宝贵意见。


1 Introduction

本文主要对于聚类分析有一个概览:聚类分析的概念,聚类分析的应用领域,聚类(clustering)的类型,簇(cluster)的类型等。

Cluster analysis divides data into groups(clusters) that are meaningful or useful. The groups or clusters should capture the natural structure of the data. In some case, cluster analysis is used for data summarization in order to reduce the size of the data)。

其实,聚类分析就是将数据划分成有意义或有用的组(簇)。这些组(簇)应该能够代表数据的自然结构(natural structure),也就是本质特征。聚类分析可以用来对庞杂的数据进行描述总结,达到概括数据的目的。

注:术语:cluster - 簇;clustering - 聚类;cluster prototype - 簇原型;

2 What is Cluster Analysis?

Given a set of objects, place them in groups such that the objects in a group are similar (or related) to one another and different from (or unrelated to) the objects in other groups. The greater the similarity (or homogeneity) within a group and the greater the difference between groups, the better or more distinct the clustering.

聚类就是根据一组数据对象之间的关系,对数据对象进行分组,目标是:组内的对象是相似的(相关的),不同组中的对象是不同的(不相关的)。组内的相似性(similarity)越小,组间的相似性越大,聚类效果就越好。如下图所示:

Introduction to Data Mining,2nd Edition
注意

  • “segmentation” 和 “partitioning” 这两个词有时也表示聚类。例如,在市场调研行业里面我们会使用"segmentat
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值