95、提取顺序知识块:概念、算法与应用

提取顺序知识块:概念、算法与应用

在当今信息爆炸的时代,从海量数据中挖掘有价值的知识变得至关重要。本文将介绍顺序关联规则和顺序知识块的概念,并详细阐述用于挖掘这些知识块的 SNK 算法,同时探讨其在分子生物学领域的应用。

1. 引言

在大型数据库中挖掘关联规则是一个经典问题,受到了广泛关注。关联规则通常表示为 A → B 的形式,其中 A 和 B 是不相交的项集。频繁顺序模式挖掘是频繁模式挖掘的一种细化,适用于存储与随时间发生的行为事实相关数据的数据库,已应用于多个领域,如客户购物序列分析、网页使用挖掘、医疗过程和 DNA 序列分析等。

本文引入了基于有趣性度量的顺序关联规则概念。与常见方法不同,我们关注的是结果项属于预定义目标项集的规则,旨在检测规则前件与结果之间的紧密关联,而不仅仅是高支持度的规则。同时,我们也寻找与特定数据高度关联的显著稀有数据,因为即使这些事实在数据库中不频繁出现,发现它们之间的紧密依赖关系也具有重要信息价值。相比之下,高支持度的关联往往缺乏惊喜,因为它们涉及数据库中的大部分对象。意外的关联可能揭示数据中需要进一步研究的方面。

我们通过有趣性度量来确定规则的相关性。由于不同的有趣性度量捕捉的关联类型不同,且没有一种度量在所有情况下都是最好的,因此我们考虑了多种有趣性度量。在此基础上,我们引入了顺序知识块的概念,即可能在数据库中支持度较低,但对于某些有趣性度量具有高度相关性的顺序关联规则。为了减少规则的数量和长度,我们只搜索最大顺序知识块,这些规则在某种程度上对应于对象的典型特征,便于人类专家分析。

最大顺序知识块可用于改进网站的组织。例如,通过分析大学网站的访问日志,我们可以根据 IP 地址识别不同用户群体的特征,进

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值