21、多维聚类:从潜在树模型到新方法的探索

多维聚类:从潜在树模型到新方法的探索

1. 多维聚类概述

在数据处理中,数据往往具有多面性,不同专家对数据的聚类方式可能不同。这种差异可能源于对属性子集的不同选择,即便考虑所有属性,聚类结果也可能不同。例如,在超市顾客分区问题中,考虑“宠物食品”属性可将顾客分为有宠物和无宠物两类;若考虑“雪茄”属性,则可分为吸烟者和非吸烟者。

一般而言,多维聚类有两种方法:多一维聚类和多维聚类。多一维聚类假设所有分区相互独立,可简化为特征选择问题;而多维聚类则考虑分区之间的潜在关系。2004 年,Zhang 引入了潜在树模型(LTMs)用于多维聚类,接下来我们将重点介绍该模型及其扩展。

2. 潜在树模型(LTMs)

LTMs 包含两种变量:观测变量(即属性)和潜在变量。每个潜在变量代表一个分区,只能是内部节点,而每个属性应是叶子节点。表 1 展示了 LTM 进行多维聚类的一般步骤:
|步骤|详情|
|----|----|
|1|确定聚类变量(分区)的数量|
|2|确定每个分区的聚类数量(每个聚类变量的值)|
|3|学习 LTM 结构
(a) 找到属性和聚类变量之间的关系(桥接模型)
(b) 仅找到属性之间的关系
(c) 找到聚类变量之间的关系|
|4|估计模型参数|

2.1 已知结构

若已知 LTM 结构,则无需执行表 1 中的步骤 1 - 3,只需学习参数。当存在隐藏变量时,EM 算法是学习参数的首选,但由于其局部最优性和高时间复杂度,许多研究人员尝试改进或提出新算法。Mourad 等人引入了基于 LCM 的 EM 算法,该算法先检测 L

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值