Delta Lake调研:Delta Lake使用案例

本文详述了DeltaLake在Soul的应用,如何从传统离线ETL模式转型到实时数仓,提升了数据处理速度。面临数据倾斜、动态模式更新和数据重复等问题,Soul采取了相应解决方案,包括动态分区、元数据管理和调整SparkKafka偏移量提交机制。此外,还探讨了DeltaLake在CDC场景下的应用。

在这里插入图片描述

Delta Lake是一个基于云对象存储的表存储工具,它实现了lakehouse的构想。Delta Lake可以解决工业领域数据产生,获取,分析等涵盖企业数据分析场景下,数据生命周期内的所有问题,因而有着广阔的使用前景。

上一篇博客Delta Lake调研:Delta Lake是什么【2】Lakehouse和data warehouse、data lake的区别中,介绍了数据存储工具随需求变化的变化,其中涉及到DataBase、DataWarehouse、DataLake以及Lakehouse的区别与联系。相信大家已经明白Delta Lake作为一款数据存储工具产生的背景以及解决的问题与其他数据存储工具有何区别。这篇博客将就Delta Lake 的使用案例来具体分析使用Delta Lake进行数据分析的优势所在。

DeltaLake在Soul的应用实践

这部分内容参考「知乎帖子」Delta Lake在Soul的应用实践,此帖子转自「阿里巴巴开发者社区帖子」DeltaLake在Soul的应用实践。在这一案例钟Soul没有使用Databrick公司开源的Delta Lake而是使用的阿里云的EMR Delta。

传统离线数仓模式下,日志入库前首要阶段便是ETL,然而这产生了如下问题:

  • 天级ETL任务耗时久,影响下游依赖的产出时间
  • 凌晨占用资源庞大,任务高峰期抢占大量集群资源
  • ETL任务稳定性不佳且出错需凌晨解决、影响范围大。

为了解决天级ETL逐渐尖锐的问题,所以这次我们选择了近来逐渐进入大家视野的数据湖架构,基于阿里云EMR的Delta Lake,我们进一步打造优化实时数仓结构,提升部分业务指标实时性,满足更多更实时的业务需求。

使用DeltaLake之前

传统离线数仓模式下,日志入库前首要阶段便是ETL,Soul的埋点日志数据量庞大且需动态分区入库,在按day分区的基础上,每天的动态分区1200+,分区数据量大小不均,数万条到数十亿条不等。下图为我们之前的ETL过程,埋点日志输入

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值