文章目录
前言
距离第一次尝试成功的文章(2021-06-17)https://blog.youkuaiyun.com/cs261244787/article/details/117987373 至今已经过去 3 年了。 说说楼主的切身体会,和生产环境使用的对比。
1、调度之痛 - 单点问题
相信搞过 Azkaban 集群的、或者其他调度集群的都为单点问题恶心的睡不着觉。 毕竟谁也不愿意大半夜起来看有没有出问题,改源码又不友好。睡不着觉也不是自己不想理会生产,每天好几千的调度 task ,又是大数据部门,又有公司老板看的内容,想睡觉基本吹牛逼了。楼主经历过 0、2、4、6、8 这样定闹铃起来看调度连续 3 天的状态。每天脑瓜子嗡嗡的,就好像十个老板同时锤爆你脑袋的那种痛苦。哎。。。。。一言难尽。
后续又是这样断断续续,搞调度的这段时间是职业生涯最苦的时候了,没功劳,苦劳领导也看不到。
我还不是最惨的,毕竟我负责技术,还有个专门负责人工肉眼查调度的哥们,他使用 Azkaban ,也二开了 Azkaban 配置代码(搞 azkaban 配置调度层级时候非常恶心)。但他经常是熬夜一通宵, 我 2 小时一起来是看集群有没有挂,把单点的 execute 搞起来,他就是调度如果错了,他要暂停后续依赖,重跑当前依赖,再去把后面调起来…。 跟他比我得痛苦轻得多
2、调度之痛 - 无法转移的调度流
azkaban 是非去中心化的,也就意味着单点出了问题你还要手动把已经分配的任务,