29、聚类算法与关联规则挖掘的优化策略

聚类算法与关联规则挖掘的优化策略

1. 聚类算法相关优化
  • 聚类初始化 :提出的初始化方法为每个聚类分配一条记录。对于数据中的后续记录,找到最接近的聚类并将其分配到该聚类中。这样做可以减少迭代次数,且不影响聚类质量。在初始化过程中,通过对数据库进行一次遍历完成聚类。通常,距离相近且属于同一聚类的记录会在初始化过程中被分配到同一聚类,只有聚类的外围数据元素会在迭代过程中在不同聚类之间移动,从而减少迭代次数。不过,当一个聚类分裂,其数据元素分布到多个初始化聚类中时会出现问题,但这种情况非常罕见。
    • 选择初始 k 条记录 :可以以任意方式选择这 k 条记录,甚至随机选择,但要确保没有两条数据记录相同。另一种选择是将每个属性的范围划分为 k 个段,并将每个段的中点分配给每个初始记录的属性值。对于分类属性,找到前 k 个频繁的属性值,并将它们分别分配给一条记录。
  • 输入顺序 :输入数据有 n! 种可能的方式。已知算法以振荡方式收敛,这种振荡是由于输入顺序中数据值的随机分布导致的。如果以均匀顺序输入数据,即数据值的变化不剧烈,收敛可能会更快。但由于涉及多个属性,很难确定这样的均匀顺序。因此,建议按主导属性的单调顺序输入数据,这样可以减少因先前记录放置不当而频繁更改聚类的元素数量。
  • 分类数据的新距离度量 :概念层次结构在 KDD 过程中起着重要作用,它指定了背景和领域知识,有助于更好地挖掘数据。提出了一种针对可以进行层次划分的属性的新距离度量方法。考虑给定的概念层次结构
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值