数据挖掘中的查询技术与归纳数据库框架
1. 数据挖掘查询面临的挑战与新方法
在数据处理领域,数据挖掘(KDD)给数据库技术带来了新的挑战,需要新的概念和方法来构建通用查询语言。传统上,在不同系统间移植代码是一项艰巨的任务,需要借助专门的“黑盒”程序。广义关联规则挖掘这类复杂的挖掘任务,以往也依赖于专门的程序。
目前已知的用于广义关联规则数据挖掘的纯 SQL - 92 查询仅有 ST - SQL 一种。不过,研究人员提出了两种新的 SQL 查询:TTR - SQL(利用临时关系)和 TH - SQL(结合了之前两种查询的优点,如候选剪枝)。
对这三种查询进行评估后发现,新提出的查询在四轮数据挖掘中性能提升可达 30%,且随着轮数增加,性能有望进一步提升。分析表明,ST - SQL 在第 k 轮的执行时间至少与 k 倍的事务数据大小成正比,这导致其在三轮以上的性能较差。
PC 集群因其高性价比,是并行关系数据库管理系统(RDBMS)的理想平台。与用 C 语言编写的原生数据挖掘程序进行性能比较后发现,10 到 15 个节点就足以达到专门程序的性能。
2. 归纳数据库的概念与结构
归纳数据库为解决数据挖掘中的查询问题提供了新的思路。其模式是一个二元组 R = (R, (Q R , e, V)),其中:
- R 是数据库模式。
- Q R 是模式集合。
- V 是结果值集合。
- e 是评估函数,它将每对 (r, θ i ) 映射到 V 中的一个元素,这里 r 是基于 R 的数据库,θ i
超级会员免费看
订阅专栏 解锁全文
2417

被折叠的 条评论
为什么被折叠?



