无监督学习中的贝叶斯聚类与聚类方法比较
1. 贝叶斯聚类概述
贝叶斯聚类的根本目标是获取数据集 $D$ 划分的后验分布,用 $C = C (K) = {C_1,\ldots,C_K}$ 表示,无论是否指定 $K$,目的是识别出模态划分。通常采用指定分层模型的方法,该模型模仿划分类上的偏序关系,使过程具有层次性,一般为聚合式。与早期聚类技术相比,贝叶斯聚类是一种更具概率性的方法。
2. 概率聚类
- Makato 和 Tokunaga 方法
- 基本思想 :从 $n$ 个大小为 1 的聚类(即每个数据点作为一个单独的聚类)开始,当合并后的聚类概率 $P(C_k ∪C_j)$ 大于单个聚类概率的乘积 $P(C_k)P(C_j)$ 时,合并聚类。将聚类本身视为随机变量。
- 具体步骤
- 用 $C_ℓ$ 表示第 $ℓ$ 阶段合并后的聚类 ${C_1,\ldots,C_{K_ℓ}}$,$ℓ = 0,\ldots,n - 2$。初始时,每个 $C_k$ 是一个单元素集。
- 目标是找到具有最大条件概率的聚类 $C_{opt}$,即 $P(C |D)$ 最大。由于完全一般性的优化较难,采用从 $n$ 个聚类的平凡划分开始搜索和合并的方法。
- 从步骤 $ℓ$ 到步骤 $ℓ + 1$ 时,合并或不合并两个聚类的一般步骤如下:假设数据已划分为聚类 $C = C_ℓ$,其聚类为 $C_1,\ldots,C_{K_ℓ}$。聚类 $C
超级会员免费看
订阅专栏 解锁全文
959

被折叠的 条评论
为什么被折叠?



