数据立方体中的灵活查询应答
1. 引言
数据仓库中的数据来自多个异构源,可靠性和质量参差不齐。因此,用户在确保更高效查询处理的情况下,可能更愿意容忍一定的信息损失以及实际数据与处理数据之间的差异。
在关系数据库领域,已有一些关于灵活查询应答的研究,主要聚焦于放宽查询条件以返回非空答案集。在数据仓库和多维数据的背景下,为了加速聚合计算和查询执行,人们也采用了查询近似方法,但会牺牲一些信息。这些方法大多基于采样技术,也有基于小波的方法,它在近似查询应答方面比采样技术更有效,还有利用数据概率密度分布来压缩数据立方体表示的方法,能减少数据存储并得到聚合查询的近似答案。
本文提出的方法允许对OLAP查询进行近似评估,输出可以是精确查询答案的子集或超集。其目标是提供灵活的查询应答机制和工具用于立方体探索,具体包括:
- 使粗糙集理论适应多维数据,为查询提供近似答案,并根据用户需求定义概念(立方体子集)。
- 用新的运算符丰富OLAP技术,让用户与数据仓库的交互更灵活。
- 定义物化视图,捕获并利用近似运算符的输出进行查询应答和数据挖掘(如单元聚类和关联规则挖掘)。
2. 粗糙集理论背景
粗糙集理论(RST)由Z. Pawlak在20世纪80年代初提出,为处理模糊概念和边界不明确的问题提供了理论基础,在人工智能尤其是从非连贯数据中进行归纳学习方面是重要的进展,广泛应用于医学、工业、金融、商业等领域。
该理论基于不可分辨性和近似性的概念:
- 不可分辨性:表达对象之间的相似程度,是基于描述对象的属性子集P的等价关系。若两个对象在P中的每个属性上值相同,则它们关于P不可分辨。
- 近似
超级会员免费看
订阅专栏 解锁全文
5788

被折叠的 条评论
为什么被折叠?



