36、聚类分析方法详解

聚类分析方法详解

1. 相似度函数与聚类方法概述

在变量为二进制值(0 或 1)时,相似度函数可以从共享特征和属性的角度来解释。假设对象 $x$ 若 $x_i = 1$ 则拥有第 $i$ 个属性,那么 $x^t · y$ 是 $x$ 和 $y$ 共同拥有的属性数量,$|x||y|$ 是 $x$ 和 $y$ 拥有的属性数量的几何平均值,因此 $s(x, y)$ 是对共同属性相对拥有情况的一种度量。

例如,给定两个向量 $x = (1, 1, 0, 0)$ 和 $y = (0, 1, 1, 0)$,根据公式计算可得它们的相似度 $s(x, y) = 0.5$。还有一种简单的变体,即 Tanimoto 系数或 Tanimoto 距离:
[s(x, y) = \frac{x^t · y}{x^t · x + y^t · y - x^t · y}]
该函数常用于信息检索和生物分类学。

选择特定的相似度(或距离)函数以及对数据进行归一化的方法有很多种,没有通用标准来指导选择,合适的选择很大程度上取决于具体应用。

2. 主要聚类方法分类

主要的聚类方法可以分为以下几类:
| 聚类方法 | 描述 |
| — | — |
| 划分方法 | 给定包含 $n$ 个对象或数据元组的数据库,划分方法将数据构建为 $k$ 个分区($k ≤ n$),每个分区代表一个聚类。常见的启发式方法有 k - 均值算法和 k - 中心点算法,适用于中小型数据库中寻找球形聚类,对于复杂形状和大规模数据集需要扩展。 |
| 层次方法 | 创建给定数据集对象的层次分解,可分为凝聚式(自底向上)和分裂式(自顶向下)。但一旦进行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值