Shoal:用于访问控制流处理系统的查询优化与操作符放置
1. 引言
随着可访问数据的规模、速度和可用性不断增长与变化,催生了新的外包数据处理模式,其中分布式数据流处理系统(DDSPS)负责处理数据流。DDSPS通过对瞬态数据执行长期连续计算(查询),如流操作、MapReduce函数或用户自定义函数等,实现对数据的实时处理。这些计算通常外包给第三方系统进行数据处理和执行。
外包计算对查询者有诸多好处,比如节省成本,无需维护昂贵的硬件和软件平台;云服务提供商能保证系统的正常运行时间和服务可用性;还可根据需求灵活分配资源,优化查询以提高效率,如降低延迟、提高吞吐量或降低成本等。
然而,当数据提供者对其流数据设置访问控制时,查询者可能会失去一些自由。例如,数据提供者制定的访问控制策略可能禁止第三方访问数据,导致查询者无法在该第三方平台上执行查询;采用加密方法实施访问控制也可能因不同权限对应不同加密方案而增加开销,降低性能。因此,查询者在生成和优化查询时必须考虑访问控制因素。
目前,DDSPS优化器的研究范围有限,有的仅关注底层计算硬件的利用,有的只注重底层网络,还有的关注数据变化对系统的影响,但没有系统将不同数据提供者的访问控制作为查询优化的依据。相关工作多采用先优化后放置的方法,且通常只针对单个查询,无法满足查询者同时查询多个数据提供者的需求。
为解决这些问题,本文提出了Shoal优化器,它在优化和分布查询操作符网络时将访问控制视为首要因素。Shoal使用动态规划算法为中等规模的流查询集提供最优的放置和排序方案,并为大型查询网络提供启发式方法。它结合了排序和放置步骤,避免了先优化后放置方法的缺陷。具体贡献如下:
- 证明了先优化后放置的方法在
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



