在eBay,我们每天需要处理超过60PB的数据,在使用Spark进行数据处理的时候,我们遇见了不少性能问题,解决这些问题通常需要大量的人工配置来干预或者优化,极大了增加了工作量;因此我们引入了Adaptive Execution(Dynamically Optimize execution) 和Indexed Bucket(Optimize Data Layout),以及一系列小的性能优化,本文讲介绍这些工作的基本原理和取得的效果,也有相关问题在Apache Spark Jira上的讨论链接。
原文https://www.slidestalk.com/s/ebay_dw_optimization
eBay大规模数仓优化
最新推荐文章于 2024-07-08 07:45:49 发布