Dataworks批量刷数优化方案探讨

原创

于 2021-11-04 10:41:00 发布 · 955 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #java #大数据 #数据库 #人工智能

本文探讨了在Dataworks中优化批量刷数的两种方案。优化方案1是创建手动任务按固定周期运行，提高效率但增加了维护成本；优化方案2利用赋值节点和参数表动态指定时间范围，避免频繁创建任务，但存在并发修改参数表的风险。通过这两种方法，可以有效提升批量刷数的效率。

Dataworks批量刷数优化方案探讨

在数据仓库的日常使用中，经常会有批量补数据，或者逻辑调整后批量重跑数据的场景。
批量刷数的实现方式，因调度工具差异而各有不同。

Dataworks调度批量刷数局限

我们的数据仓库构建在阿里云的dataworks+maxcompute产品上，dataworks的调度工具提供了补数据的功能，可以很方便的补整个任务流的数据，但是该功能有个局限，就是只能指定一个参数，即业务日期，如下图。 20211102095700
如果要刷一个月的数据，比如2021年10月份，要怎么操作呢？业务日期选定时间范围2021-10-01 ～ 2021-10-31。然后dataworks会根据选定的时间范围，每天生成一个实例去执行任务补数据，也就是补数据的任务要跑31次，每次补一天的数据。 20211102095723
这样就会导致整个补数的过程非常缓慢，且耗资源。

因为maxcompute是基于hive的，一个任务的启动初始化-〉申请资源-〉等待资源分配的过程是很重、很缓慢的，31个天任务的这个过程中耗时会是单个任务的31倍(未并行的情况下)。初步统计了一下，单个maxcompute任务的启动耗时大概是8s，31个任务启动就比单个任务多出了4分钟，如果整个流程涉

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。