数据湖技术之应用场景篇

数据湖技术在在线数据抽取与实时join场景中的应用与优化
本文介绍了数据湖技术如何解决在线数据抽取和Flink多流join中的痛点,如性能瓶颈、稳定性问题和维护成本。通过结合DDS和Hudi技术,实现链路稳定、效率提升和准确性保证,展示了数据湖技术在提升业务效能和降低成本方面的潜力。

        数据湖技术有较多的应用场景,本篇文章是针对一些典型的痛点场景做了一些介绍和说明。比如说在线数据抽取场景原有模式对线上库表产生较大压力,flink多流join维护的大状态导致的稳定性问题等等,具体场景如下图所示:

场景1:在线数据抽取

        业务一般会从线上mysql库表以离线方式抽取全量数据到hive表,供下游业务进行相关关联查询等处理,一般每天周期抽取数据后会放置到hive表的T+1分区上,整体流程如下图所示:

痛点总结:

  • 每天全量查询,需要消耗较多资源,业务mysql库压力较大,性能受到影响。
  • 业务抽取任务延迟太高,下游业务无法及时获取数据,无法按时产出业务数据。
  • 分库分表,维护的离线任务较多,维护成本高,调整代价大。
  • 各种因素影响,不够稳定,如果任务出现问题,整体重跑代价大,等待时间过长。

针对此场景的上述痛点问题,可以应用数据湖技术方案进行改造,改造后整体流程如下图所示:

可以看到结合数据湖方案可以准实时的进行入湖,下游进行抽取数据时基本没有太明显的性能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值