数据仓库视图的质量与成本
1. 视图重写的选择观察
在视图重写的选择中,有两种不同情况值得关注。
- 使用超集关系替换 :当我们关注合法重写 V3、Vi 和 Vs 时(在图 8 中标记为 3、4 和 5,对应表 3 的第 3 到 5 行),这些重写是通过用超集关系替换已删除的关系 Lineitem 得到的。在各种参数设置下,V3 在这三个重写中总是排名最高。这是因为当被替换关系的基数增加时,差异度(表 3 第四列,标记为 DD)和视图维护成本(第五列,标记为 Cost)都会上升。对于这种仅使用超集替换的情况,权衡参数对选择最佳重写没有影响,关系大小最接近原始关系的替换也是最小的替换,并且在合法重写中总是排名最佳。
- 使用子集关系替换 :如果我们关注合法重写 Vi、VS 和 V3(在图 8 中标记为 1、2 和 3,对应表 3 的第 1 到 3 行),这些重写是通过用子集关系替换已删除的关系 Lineitem 得到的。随着替换关系大小的增加,重写的差异度会下降(表中第四列),但合法重写的视图维护成本会随着被替换关系的基数增加而增加(第五列)。因此,这些重写的整体效率取决于权衡参数。在情况 1 中,V3 是三者中最好的;在情况 2 和 3 中,即当视图维护成本权重较高时,效率模型会将 Vi 排名更高。
2. 成本模型预测准确性实验
为了验证 QC - 模型中成本部分的合理性和正确性,即确定成本模型的估计值对数据更新后实际维护成本的预测效果,我们进行了一系列实验。
2.1 实验设计
实验的一个重要成果是得出了一种经验性计算单位成本 costM
超级会员免费看
订阅专栏 解锁全文
58

被折叠的 条评论
为什么被折叠?



