70、数据仓库视图质量与成本及Web数据提取技术解析

数据仓库视图质量与成本及Web数据提取技术解析

一、数据仓库视图同步与性能优化

视图同步是动态分布式信息系统中一个重要的新问题。随着越来越多不同且自主的数据库系统被整合到大型数据仓库中,参与数据仓库的信息源处的本地元数据更新通常会导致仓库中的视图失效。此前在EVE项目的工作已经对这一问题进行了处理。

在当前工作中,重点聚焦于视图同步带来的性能问题。由于底层数据源的模式变更下视图的演变会为原始视图查询生成大量可能的重写方案,因此有必要对这些重写方案进行比较,找出维护视图的最佳解决方案。

为此引入了一种新颖的效率衡量方法,该方法探索了质量和成本两个维度,并由此定义了QC - 模型。这个模型可用于对受影响视图定义的替代合法查询重写方案进行排序。通过所开发的QC - 模型,可以对看似无法比较的解决方案进行排序,并且引入参数来权衡质量和成本(以及两者子维度之间的权衡)是可行的。虽然本文使用了一个简单的成本模型,且未处理查询优化问题,但只要能在某些更新工作负载模型下正确预测任意查询的增量视图维护成本,就可以纳入其他替代成本模型。例如,将查询优化器(生成等效重写方案)与当前方法相结合,可能会得到一个能以更低执行成本找到与原始视图差异较小的视图重写方案的系统。

进行了实验来分析模型的属性,例如某些参数之间的相关性。还进行了性能测量,并对成本模型中的权衡参数进行了统计分析。发现计算出的视图维护成本与实际成本(执行时间)之间存在高度相关性。这项工作的结果正被用于EVE系统中,作为视图同步算法生成的视图重写方案的评估模块。

未来的工作包括更深入地研究模型的可能扩展如何影响工作的质量维度,为模型的成本部分提供更复杂的解决方案(例如考虑信息源的连接成本),以及支持其

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值