4、序列模式挖掘中的约束应用与优化

序列模式挖掘中的约束应用与优化

在数据挖掘领域,从大型序列数据库中挖掘大量的序列模式是一项计算成本高昂的任务。为了提高效率,我们可以关注用户感兴趣的序列模式,从而避免因挖掘无趣模式而产生的大量计算成本。本文将深入探讨序列模式挖掘中的约束应用及相关优化方法。

1. 现有高效算法及扩展

基于PrefixSpan,近期开发了一些更高效的模式增长、深度优先搜索方法。例如,Chiu等人提出了一种新策略,用于减少深度优先搜索中的支持计数;SPAM采用垂直位图表示法,能以更多空间为代价挖掘更长的序列模式;FreeSpan则先找出频繁项集,再用其组装序列模式。

2. 带约束的序列模式挖掘

在许多数据挖掘应用中,约束对于提高挖掘的有效性和效率至关重要。例如,在研究新疾病时,研究人员可能希望找到关于症状的序列模式,如“咳嗽2 - 7天,随后发烧2 - 5天,体温在37.5 - 39°C之间,平均温度为38 ± 0.2°C,且所有症状在2周内出现”。这个挖掘查询包含了一些约束,涉及包含特定常量的序列以及平均函数等。

2.1 约束的类别

从应用角度来看,约束可分为以下七类:
- 项约束 :指定模式中应存在或不应存在的项的子集。例如,在挖掘Web日志的序列模式时,用户可能只对访问在线书店的模式感兴趣。设B为在线书店的集合,相应的项约束为$C_{bookstore}(\alpha) \equiv (\forall i : 1 \leqslant i \leqslant len(\alpha), \alpha[i] \subseteq B)$。
- 长度约束

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值