Apache DolphinScheduler,为Apache开源项目, 简称”DS”, 中文名 “小海豚调度”(海豚聪明、人性化,又左右脑可互相换班,终生不用睡觉)。希望 DolphinScheduler 就像它的名字一样,成为一个“开箱即用”的灵活易用的调度系统。社区发展非常迅速,目前已有像IBM、腾讯、美团、360等 400+ 公司在生产上使用,代码+文档贡献者近200位,社区用户4000 +人。
主人翁介绍
姓名:张伯毅
某上市公司大数据工程师,目前主要负责大数据平台研发.技术控,喜欢阅读源码,优快云博客专家.

DolphinScheduler已经一岁了,很荣幸与它一起成长, 2020年就剩几天了,记录一下,就当是对这一年多的成长做了一个梳理
(开启碎碎念模式…).
一. 相遇
2019年10月公司决定开展中台方面的业务,基于大数据体系,要搞一套从数据接入到数据输出一站式的"全家桶". 在大数据体系,其实各项技术已经相对成熟了. 之前公司用的技术栈是HDP体系,所以一直使用Oozie作为调度系统. 在调研阶段,出于各种原因吧,但是我觉得Oozie并不是很好用,比如在考虑到定制开发的时候,觉得前端开发成本有点高以及最重要的是觉得在DAG可视化方面并不是很好等等各种原因,所以就开始寻找其他的解决方案.
机缘巧合之下,我在gitee上找到了人气爆棚的Easy Scheduler (DolphinScheduler的前身). 然后就被它的两张图所吸引.


一种心动的感觉,不慌不慌,稳住. 再看技术体系:
后端: SpringBoot (2.x)
前端: VUE
编译: Maven(3.3+) ,
元数据存储: Mysql5.5+
分布式无中心化设计: ZooKeeper(3.4.6+)
我去,都是主流技术栈,二次开发基本零门槛. 再看一下其他的特性,
- 以DAG图的方式将Task按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态
- 支持丰富的任务类型:Shell、MR、Spark、SQL(mysql、postgresql、hive、sparksql),Python,Sub_Process、Procedure等
- 支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill任务等操作
- 支持工作流优先级、任务优先级及任务的故障转移及任务超时告警/失败
- 支持工作流全局参数及节点自定义参数设置
- 支持资源文件的在线上传/下载,管理等,支持在线文件创建、编辑</

本文讲述大数据工程师张伯毅与Apache DolphinScheduler的故事。他因公司业务调研,被其主流技术栈和丰富特性吸引。之后推荐给领导,参与贡献PR、文章、文档,配置代码规范,担任群管理。他认为社区技术氛围好,鼓励大家加入。
最低0.47元/天 解锁文章
2113

被折叠的 条评论
为什么被折叠?



