聚类分析:原理、方法与应用
一、聚类分析简介
聚类分析是一种将数据对象分组为多个类或簇的技术,使得同一簇内的对象具有较高的相似性,而不同簇的对象具有较高的差异性。通过聚类分析,可以发现数据中的自然分组结构,为进一步的数据分析和决策提供支持。
以公共事业为例,我们可以根据不同公共事业公司的各种指标(如服务范围、收费标准、用户满意度等)对这些公司进行聚类,以便更好地了解市场结构和各公司的特点。
二、记录间距离的度量
在聚类分析中,度量两个记录之间的距离是非常重要的,因为它决定了数据对象如何被分组到不同的簇中。以下是几种常见的距离度量方法:
2.1 欧几里得距离
欧几里得距离是最常用的距离度量方法之一,用于计算两个数值向量之间的直线距离。对于两个 $n$ 维向量 $\mathbf{x}=(x_1,x_2,\cdots,x_n)$ 和 $\mathbf{y}=(y_1,y_2,\cdots,y_n)$,欧几里得距离 $d(\mathbf{x},\mathbf{y})$ 的计算公式为:
[d(\mathbf{x},\mathbf{y})=\sqrt{\sum_{i = 1}^{n}(x_i - y_i)^2}]
2.2 数值测量的归一化
在使用欧几里得距离或其他基于数值的距离度量方法时,由于不同特征的取值范围可能差异很大,可能会导致某些特征对距离的影响过大。因此,通常需要对数值测量进行归一化处理,将所有特征的取值范围缩放到相同的区间,常见的归一化方法有最小 - 最大归一化和 z - 分数归一化。
最小 - 最大归一化
将数据缩
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



