聚类分析
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生 成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
聚类属于无监督学习(unsupervised learning),也就意味着它不依赖于预先定义的类和训练样本。所以聚类是通过观察学习,而不是通过例子学习。
数据挖掘对聚类的典型要求如下:
- 可伸缩性
- 处理不同类型属性的能力
- 发现任意形状的聚类
- 用于决定输入参数的领域知识最小化
- 处理“噪声”数据的能力
- 对于输入记录的顺序不敏感
- 高维度
- 基于约束的聚类
- 可解释性和可用性
聚类分析中的数据类型
- 数据矩阵(Data matrix):用p个变量来表现n个对象,(n 个对象*p 个属性)的矩阵

- 相异度矩阵(dissimilarity matrix):存储n个对象两两之间的近似性,表现形式是一个 n*n 维的矩阵。d(i,j)是对象i和对象j之间的相异性的量化表示,通常它是一个非负的数值,当对象 i 和 j 越相似,其值越接近 0;两个对象越不同,其值越大。

区间标度(Interval-Scaled)变量
为了实现度量值的标准化,一种方法是将原来的度量值转 换为无单位的值。给定一个变量 f 的度量值,可以进行如下的变换:

这里的 x1f,…,xnf 是 f 的 n 个度量值,mf 是 f 的平均值
对数据进行标准化的处理之后,下面要计算对象间的相异度,而对象间的相异度是基于对象间的距离来计算的。
欧几里得距离(Euclidean distance):

曼哈顿距离(Manhattan distance):

以上两种距离度量方法均满足:
- d(i,j)>=0,距离是一个非负的数值
- d(i,i)=0,一个对象与自身的距离是0
- d(i,j)=d(j,i),距离函数具有对称性
- d(i,j)<=d(i,h)+d(h,j),从对象i到对象j的直接距离不会大于途径任何其他对象的距离。
**明考斯基距离(Minkowski distance)**是欧几里得距离和曼哈顿距离的概化:

q=1就是曼哈顿距离,q=2就是欧几里得距离
二元变量(binary variable)
一个二元变量只有两个状态:0 或 1,0 表示该变量为空,1 表示该变量存在。
如何计算二元变量的相似度呢?
如果假设所有的二元变量有相同的权重,我们得到一个两行两列的可能性表。在表中,a 是对象 i 和 j 值都为 1 的变量的数目,b 是在对象 i 中值为 1,在对象 j 中值为 0 的变量的数目,c 是 在对象 i 中值为 0,在对象 j 中值为 1 的变量的数目,d 是在对象 i 和 j 中值都为 0 的变量的数目。变量的总数是 p=a+b+c+d
对称的二元变量和不对称的二元变量之间的区别是什么?
如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0 或 1 没有优先权。如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例
对称的二元变量距离测量:

非对称二元变量的距离测量:


本文介绍了聚类分析的概念,包括无监督学习方法、不同类型数据的处理(如数据矩阵、区间标度、二元变量等)、主要聚类方法(如k-means、层次方法、密度聚类等)以及孤立点检测技术。BIRCH和CURE算法在处理大规模数据和复杂形状簇上有所创新。

最低0.47元/天 解锁文章
1128





