20、数据挖掘中的模式识别算法及模块化粗糙模糊多层感知器

数据挖掘中的模式识别算法及模块化粗糙模糊多层感知器

1. 关联规则挖掘算法优化策略

1.1 分区策略

分区技术仅需对数据库进行两次扫描即可挖掘频繁项集,它包含两个阶段:
- 阶段一 :将数据库 D 的事务划分为 p 个不重叠的分区。若 D 中事务的最小支持阈值为 min sup,则分区的最小项集支持计数为 min sup 乘以该分区的事务数。针对每个分区,找出其中的所有频繁项集,即局部频繁项集。局部频繁项集对于整个数据库 D 而言,可能频繁也可能不频繁,但任何可能对 D 频繁的项集,至少会在一个分区中作为频繁项集出现。因此,所有局部频繁项集都是相对于 D 的候选项集,这些分区的频繁项集集合构成全局候选项集。
- 阶段二 :对数据库 D 进行第二次扫描,评估每个候选项集的实际支持度,以确定全局频繁项集。

1.2 采样策略

采样方法的基本思路是从给定数据 D 中随机选取一个样本 S,然后在 S 中搜索频繁项集,而非在 D 中。这样做是在一定程度的准确性和计算时间之间进行权衡。样本 S 的大小应确保在主内存中就能完成频繁项集的搜索,因此总体上只需对 S 中的事务进行一次扫描。由于是在 S 中搜索频繁项集,可能会遗漏一些全局频繁项集。为减少这种可能性,使用低于最小支持值的支持阈值来查找 S 中的局部频繁项集。

1.3 动态项集计数策略

动态项集计数技术将数据库划分为以起始点标记的块。与 Apriori 算法不同,该算法仅在每次完整数据库扫描之前确定新的候选项集,而动态项集计数技术可以在任何起始点添加新的候选项集。它通过添加

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值