azkaban定时调度sql脚本初体验

最新推荐文章于 2024-07-30 07:30:00 发布

KerryZXC

最新推荐文章于 2024-07-30 07:30:00 发布

阅读量960

点赞数 1

分类专栏： azkaban 数据仓库文章标签：数据仓库

本文链接：https://blog.youkuaiyun.com/qq_41495340/article/details/118469772

版权

azkaban 同时被 2 个专栏收录

2 篇文章

订阅专栏

数据仓库

1 篇文章

订阅专栏

本文介绍如何编写job脚本，以定时执行Hadoop数仓中的SQL任务。首先，通过suhdfs命令执行build.sh脚本来准备环境。然后，定义job文件，明确各SQL脚本间的依赖关系，并设定执行顺序。最后，将job文件打包成.zip上传至Azkaban，设置定时调度，实现自动化执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求：公司数仓中的一个项目需要每天定时执行集群中的sql脚本文件，我们需要将它写好成脚本上打包成zip文件传到azkaban中定时执行

我需要把这个项目中的（三个分层）所有loaddata部分对应的sql文件名称写成job文件去定时执行，因为每天基本上是定时跑这三层的几个文件

第一步，编写job脚本

#before job build project
type=command
command=su hdfs -c "/data/apps/warehouse-schema/build.sh"
retries=10  ##失败的job的自动重试的次数
retry.backoff=120000  ##重试的间隔（毫秒）

注意各个文件之间的依赖关系，这步是最重要的，因为各个脚本文件之间的执行有先后顺序，我们需要厘清楚这里面的关系，注意他们彼此之间的依赖。

注意dependicies里面填写的是job文件名，不是.sql文件名。比如a.job文件依赖b.job文件里面的c.sql，a文件的dependicies里写的是b.job而不是c.sql

type=command
dependencies=dwd_tj_farm_inventory
command=su hdfs -c 'hive -f /data/apps/warehouse-schema/tianjin_ods/loaddata/dws/dws_tj_farm_inventory.sql'