Presto之Union算子的实现

本文简述了Presto中Union All算子和Union算子数据去重的实现。在Presto里,Union算子实现需经多步骤将关键词绑定、转化,最后通过Exchange汇聚数据。而Union去重则通过HashAggregateOperator,利用Hash值标记和递增groupId构建输出数据来实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 前言

       在Presto中,Union的算子包括自动去重的Union操作和不去重的Union All操作。本文主要简述在Presto中Union All算子是如何实现和Union算子中是如何实现数据去重的。

二. Presto之Union的实现

      1. 首先在g4中将sql的union关键词与setOperation进行绑定

    2. AstBuilder中将SetOperation转化成UnionOperator

   3.  在AddLocalExchanges的执行计划中将UnionOperator转化为ExchangeOperator

      4. 最后,通过Exchange的Gather功能,将3中的所有source的数据进行汇聚,实现Union的操作,如下所示:

 

三. Union的去重实现

      在Presto中,如果Union中没有显式带all的话,Presto在做Union的时候,会自动对数据进行去重处理,在Presto中,数据的去重是通过HashAggregateOperator实现的,如下是一个Union去重的执行计划:

        HashAggregateOperator对数据实现去重操作其实和Presto 聚合中groupBy分组的实现_presto groupby_王飞活的博客-优快云博客 过程是一样的,核心操作主要为如下两部分:

       1. 对进来的数据Hash列求取Hash值,再通过Hash值在groupAddressByHash数组中确认是否已被标记,如果已经被标记,则说明已经有相同的数据被处理过了,此行无需重复做处理,因此可以对此行数据不需要做任何处理。相反,如果在groupAddressByHash中数组中没有发现此Hash值被标记,则将此Hash值推入groupAddressByHash中,并且分配一个递增的groupId。

      2.  利用上述递增的groupId构建输出数据,在输出Page时只选取0-groupId内的数据,因为Hash值是一样的,对应的groupId也是一样的,因此在输出Page中不会重复出现,从而实现了数据的去重能力。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值