数据仓库视图质量与成本及Web数据提取技术解析
一、数据仓库视图同步与性能优化
视图同步是动态分布式信息系统中一个重要的新问题。随着越来越多不同且自主的数据库系统被整合到大型数据仓库中,参与数据仓库的信息源处的本地元数据更新通常会导致仓库中的视图失效。此前在EVE项目的工作已经对这一问题进行了处理。
在当前工作中,重点聚焦于视图同步带来的性能问题。由于底层数据源的模式变更下视图的演变会为原始视图查询生成大量可能的重写方案,因此有必要对这些重写方案进行比较,找出维护视图的最佳解决方案。
为此引入了一种新颖的效率衡量方法,该方法探索了质量和成本两个维度,并由此定义了QC - 模型。这个模型可用于对受影响视图定义的替代合法查询重写方案进行排序。通过所开发的QC - 模型,可以对看似无法比较的解决方案进行排序,并且引入参数来权衡质量和成本(以及两者子维度之间的权衡)是可行的。虽然本文使用了一个简单的成本模型,且未处理查询优化问题,但只要能在某些更新工作负载模型下正确预测任意查询的增量视图维护成本,就可以纳入其他替代成本模型。例如,将查询优化器(生成等效重写方案)与当前方法相结合,可能会得到一个能以更低执行成本找到与原始视图差异较小的视图重写方案的系统。
进行了实验来分析模型的属性,例如某些参数之间的相关性。还进行了性能测量,并对成本模型中的权衡参数进行了统计分析。发现计算出的视图维护成本与实际成本(执行时间)之间存在高度相关性。这项工作的结果正被用于EVE系统中,作为视图同步算法生成的视图重写方案的评估模块。
未来的工作包括更深入地研究模型的可能扩展如何影响工作的质量维度,为模型的成本部分提供更复杂的解决方案(例如考虑信息源的连接成本),以及支持其
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



