6、利用统计指标的数学结构与共享分布式数据集方法优化查询性能-优快云博客

本文链接：https://blog.youkuaiyun.com/web99/article/details/150598082

利用统计指标的数学结构与共享分布式数据集方法优化查询性能

在当今大数据时代，数据量呈爆炸式增长，对数据的处理和分析需求也日益增加。本文将介绍两个重要的研究内容，一是利用统计指标的数学结构进行模式级比较，二是提出共享分布式数据集（S2D）方法来优化分布式数据仓库中的多查询执行性能。

利用统计指标的数学结构

考虑两个库CityA和CityB，通过推导所有指标，推理器可以推断出可计算指标的完整集合。
- 指标集合推导
- IA = {kpi:TotalEmission, kpi:TotEmissionPerCapita, kpi:TotalPopulation}
- IB = {kpi:TotalEmission2, kpi:NOXEmission, kpi:SOXEmission, kpi:PM10 Emission, kpi:TotalPopulation, kpi:NH3Emission, kpi:TotalEmission, kpi:Tot EmissionPerCapita}
- IA中的第三个指标是从TotEmissionsPerCapita公式推导得出的。对于IB，NH3Emission指标是从TotalEmission2公式推导得出的，前提是其他操作数可用，而TotalEmission是从TotalEmission2和PM10Emission计算得出的，TotEmissionsPerCapita则是从TotalEmission和TotalPopulation计算得出的。
- 两个库共享的指标集合为IA ∩ IB = {kpi:TotalEmission, kpi:TotEmissionPerCapita