目录
简介&特点:
Apache DolphinScheduler(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。
特点:
DolphinScheduler提供了许多易于使用的功能,可加快数据ETL工作开发流程的效率。其主要特点如下:
通过拖拽以DAG 图的方式将 Task 按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态;
支持丰富的任务类型;
支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill 任务等操作;
支持工作流全局参数及节点自定义参数设置;
支持集群HA,通过 Zookeeper实现 Master 集群和 Worker 集群去中心化;
支持工作流运行历史树形/甘特图展示、支持任务状态统计、流程状态统计;
支持补数,并行或串行回填数据
架构:
须知:
Mysql (5.5+) : 必装
JDK (1.8+) : 必装
ZooKeeper(3.4.6+) :必装
Hadoop(2.6+) 选装, 如果需要使用到资源上传功能,MapReduce任务提交则需要配置Hadoop(上传的资源文件目前保存在Hdfs上)
Hive(1.2.1) : 选装,hive任务提交需要安装
Spark(1.x,2.x) : 选装,Spark任务提交需要安装
1. 安装包下载:
DolphinScheduler源码下载地址 :https://github.com/apache/dolphinscheduler.git
2. windows安装zookeeper
1>. 下载zookeeper安装包:https://www.apache.org/dyn/closer.lua/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz
2>. 解压apache-zookeeper-3.6.3-bin.tar.gz
3>. 在zookeeper的目录下新建data、log文件夹
4>. 将conf目录下的zoo_sample.cfg文件,复制一份,重命名为zoo.cfg,修改其中数据和日志的配置
修改如下:
dataDir=D:\\code\\apache-zookeeper-3.6.3-bin\\data