4、领域知识引导的知识发现初探

领域知识引导的知识发现初探

在数据挖掘领域,从数据库中提取有用模式是一项重要任务。其中,频繁项集常被用于揭示数据中的“规律”,但在某些情况下,挖掘“稀有”项集也具有重要意义。本文将介绍稀有项集和规则、相关挖掘平台以及数据挖掘方法,还会探讨知识发现的研究方向。

稀有项集和规则

在从数据库提取的有用模式中,频繁项集通常能展现数据中的“规律”,它们是反复出现现象的见证,符合领域专家的预期。然而,有时搜索“稀有”项集也很有价值。稀有项集指在数据中不常出现的项集,与频繁项集形成对比,它们对应意外现象,可能与领域中的传统观念相矛盾。

例如,在生物学领域,专家研究心血管疾病(CVD)病因时,频繁项集“{胆固醇水平升高,CVD}”可验证这两个项常相关的假设,得出“胆固醇水平高的人患CVD风险高”的结论。而稀有项集“{素食者,CVD}”则表明这两个项的关联较为特殊,可能意味着“素食者患CVD风险低”。并且,{素食者}和{CVD}可能都是频繁项集,但{素食者,CVD}却是稀有项集。

稀有情况值得特别关注,因为它们给数据挖掘算法带来了很大困难。相关挖掘问题已被深入研究,有不同的名称,如异常、负规则等。这些方法大多基于通用的逐层Apriori算法的改进,但可能因计算成本过高或定义过于严格而不完整,无法收集大量潜在有趣的模式。

为解决这一问题,有一种专门用于提取稀有项集的框架。它基于对稀有项集直观且正式的定义,旨在为稀有模式挖掘提供理论基础,包括简化表示的定义和挖掘任务的复杂度结果,还开发了一套算法工具套件(在Coron平台中)及使用指南。计算所有稀有项集的方法主要包括两个步骤:
1. 识别最小稀有项集 :使用优化方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值