大数据调度平台目前多样化,如何选择适合自己公司得调度平台,老姜给大家罗列三种调度平台性能对比。
DolphinScheduler | Azkaban | Oozie | |
---|---|---|---|
定位 | 解决数据处理流程中错综复杂的依赖关系 | 为了解决Hadoop的任务依赖关系问题 | 管理Hdoop作业(job)的工作流程调度管理系统 |
任务类型支持 | 支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process | command、HadoopShell、Java、HadoopJava、Pig、Hive等,支持插件式扩展 | 统一调度hadoop系统中常见的mr任务启动、Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等 |
可视化流程定义 | 所有流、定时操作都是可视化的,通过拖拽来绘制DAG,配置数据源及资源,同时对于第三方系统,提供api方式的操作。 | 通过自定义DSL绘制DAG并打包上传 | 配置相关的调度任务复杂,依赖关系、时间触发、事件触发使用xml语言进行表达 |
任务监控支持 | 任务状态、任务类型、重试次数、任务运行机器、可视化变量,以及任务流执行日志 | 只能看到任务状态 | 任务状态、任务类型、任务运行机器、创建时间、启动时间、完成时间等。 |
暂停/恢复/补数 | 支持暂停、恢复 补数操作 | 只能先将工作流杀死在重新运行 | 支持启动/停止/暂停/恢复 |