HashTable 在蚂蚁转化归因中的极致运用

文章介绍了蚂蚁转化归因中如何通过建立Hashcluster表进行优化,特别是利用其预排序和重排压缩功能以及ShuffleRemove操作减少不必要的数据交换。Hashcluster表通过分桶策略,当数据分布特性与上游算子要求匹配时,可以避免昂贵的Shuffle操作,提高效率。

概述

蚂蚁的转化归因在初期运行两个多小时的情况下,进行了一系列优化,其中建立hash cluster表及强制hash关联及Shuffle的手动干预进行remove操作此部分优化占了较大比重。本文则主要讲述hash cluster表的一些运用。

Hash cluster表具有两个作用:

· 存储预排序的重排压缩。Hash cluster表采用分桶排序操作,若相同的值重复度高,则可以达到更好的压缩效果。

· 下游任务的Shuffle Remove。Hash cluster表由于采用对指定字段分桶操作,下游若一些关联、聚合操作与分桶键策略相同,则会进行Shuffle Remove操作。MaxCompute操作中,Shuffle是昂贵的,因此有必要在优化阶段尽可能移除不必要的Shuffle。什么情况下可以移除Shuffle?简单来说就是数据本身已经具有某些数据分布特性,刚好这个数据分布特性满足了上游算子对这份数据的分布要求,就不需要再做Shuffle,这个也是Hash cluster表的重要应用场景。

完整内容请点击下方链接查看: 

HashTable 在蚂蚁转化归因中的极致运用-阿里云开发者社区

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《                                  阿里云开发者社区用户服务协议》和《                                  阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写                                  侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值