利用统计指标的数学结构与共享分布式数据集方法优化查询性能
在当今大数据时代,数据量呈爆炸式增长,对数据的处理和分析需求也日益增加。本文将介绍两个重要的研究内容,一是利用统计指标的数学结构进行模式级比较,二是提出共享分布式数据集(S2D)方法来优化分布式数据仓库中的多查询执行性能。
利用统计指标的数学结构
考虑两个库CityA和CityB,通过推导所有指标,推理器可以推断出可计算指标的完整集合。
- 指标集合推导
- IA = {kpi:TotalEmission, kpi:TotEmissionPerCapita, kpi:TotalPopulation}
- IB = {kpi:TotalEmission2, kpi:NOXEmission, kpi:SOXEmission, kpi:PM10 Emission, kpi:TotalPopulation, kpi:NH3Emission, kpi:TotalEmission, kpi:Tot EmissionPerCapita}
- IA中的第三个指标是从TotEmissionsPerCapita公式推导得出的。对于IB,NH3Emission指标是从TotalEmission2公式推导得出的,前提是其他操作数可用,而TotalEmission是从TotalEmission2和PM10Emission计算得出的,TotEmissionsPerCapita则是从TotalEmission和TotalPopulation计算得出的。
- 两个库共享的指标集合为IA ∩ IB = {kpi:TotalEmission, kpi:TotEmissionPerCapita
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



