PolyBench:首个多存储基准测试方案
1. 引言
现代商业智能不仅需要跨多个领域进行数据处理,还需跨越不同的数据处理范式,如关系型、流数据和图数据模型等。这对通常仅支持单一或少数几种数据模型的现有系统构成了挑战。多存储系统(Polystores)应运而生,它集成了不同的专业数据处理引擎,以实现对多种数据模型的快速处理。然而,目前尚无评估多存储系统性能的标准。
为解决这一问题,我们提出了 PolyBench,这是首个用于异构分析系统(尤其是多存储系统)的基准测试方案,旨在提供一个完整的评估环境。其目标是提供一套包含评估指标和工作负载的基准测试套件,从而建立更好的基线。通过该方案,我们将对多存储系统和单通用引擎进行全面比较,并进行广泛的实验分析。
1.1 主要贡献
- 提出 PolyBench,这是首个多存储基准测试方案。其基准测试套件包含三个主要用例和两个测试场景,并提供了一套专门的指标,便于进行深入分析。
- 对多存储系统克服单通用存储性能瓶颈的理念进行分析,并比较多存储系统和单通用存储在不同工作负载下的表现。
- 开展广泛的实验分析,使用基准测试驱动程序提供的不同参数和参数组合对被测系统进行评估。
2. 背景知识
2.1 多存储系统(Polystore)
多存储系统是不同专业存储的集合,这些存储可能具有不同的语言和执行语义,支持广泛的数据类型和分析功能。当用户向多存储系统执行用例时,多存储优化器会将用例拆分为子查询,每个子查询直接针对特定的成员存储。