多维聚类:从潜在树模型到新方法的探索
1. 多维聚类概述
在数据处理中,数据往往具有多面性,不同专家对数据的聚类方式可能不同。这种差异可能源于对属性子集的不同选择,即便考虑所有属性,聚类结果也可能不同。例如,在超市顾客分区问题中,考虑“宠物食品”属性可将顾客分为有宠物和无宠物两类;若考虑“雪茄”属性,则可分为吸烟者和非吸烟者。
一般而言,多维聚类有两种方法:多一维聚类和多维聚类。多一维聚类假设所有分区相互独立,可简化为特征选择问题;而多维聚类则考虑分区之间的潜在关系。2004 年,Zhang 引入了潜在树模型(LTMs)用于多维聚类,接下来我们将重点介绍该模型及其扩展。
2. 潜在树模型(LTMs)
LTMs 包含两种变量:观测变量(即属性)和潜在变量。每个潜在变量代表一个分区,只能是内部节点,而每个属性应是叶子节点。表 1 展示了 LTM 进行多维聚类的一般步骤:
|步骤|详情|
|----|----|
|1|确定聚类变量(分区)的数量|
|2|确定每个分区的聚类数量(每个聚类变量的值)|
|3|学习 LTM 结构
(a) 找到属性和聚类变量之间的关系(桥接模型)
(b) 仅找到属性之间的关系
(c) 找到聚类变量之间的关系|
|4|估计模型参数|
2.1 已知结构
若已知 LTM 结构,则无需执行表 1 中的步骤 1 - 3,只需学习参数。当存在隐藏变量时,EM 算法是学习参数的首选,但由于其局部最优性和高时间复杂度,许多研究人员尝试改进或提出新算法。Mourad 等人引入了基于 LCM 的 EM 算法,该算法先检测 L
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



