11、长模式挖掘:方法与挑战

长模式挖掘:方法与挑战

1. 引言

模式挖掘自诞生以来一直是数据挖掘的核心主题。在众多对挖掘模式施加的约束中,大尺寸模式因其多方面原因而备受关注。一方面,长模式是数据集不断增大的自然结果。例如,在Facebook或Twitter等社交网络分析中,功能社区规模可达150,远超多数算法的挖掘能力;在当今互联网的网页结构挖掘中,各领域的真实网页结构也相当复杂。另一方面,长模式在刻画大数据集时更具信息价值,在生物信息学等领域,长模式比短模式能提供更有意义的见解。比如在DBLP合著网络中,小模式(如几位作者合作一篇论文)很常见,而长模式才能揭示不同研究社区间有趣的合作模式或区分不同模式;在软件工程中,从程序结构数据中挖掘出的长模式能揭示软件的关键架构。

需要注意的是,长模式通常伴随着频率约束,这增加了挖掘的复杂性。本文将首先介绍大频繁模式挖掘的基础知识,引入模式格模型解释各种算法,然后根据挖掘范式将长模式挖掘算法分为三类:模式枚举挖掘、模式合并挖掘和邻域邻接模式遍历挖掘。

2. 基础知识

大频繁模式挖掘主要在三种数据设置中进行研究:项集、序列和图,具体定义如下:
- 项集 :项集是频繁模式挖掘中最简单的设置。设I为一组项{o1, o2, …, od},I的非空子集称为项集。事务数据集D是项集的集合,D = {t1, …, tn},其中ti ⊆I。对于任何项集α,包含α的事务集记为Dα = {i|α ⊆ ti且ti ∈D}。项集α的基数定义为其包含的项数,即|α| = |{oi|oi ∈α}|。
- 频繁项集定义 :对于事务数据集D,如果|Dα| / |D| ≥σ(其中|D

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值