目录
(4)在MySQL中创建dolphinscheduler数据库
一、什么是 DolphinScheduler
Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。
Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG,有向无环图)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
二、DolphinScheduler 的特性
- 可视化 DAG: 用户友好的,通过拖拽定义工作流的,运行时控制工具
- 模块化操作: 模块化有助于轻松定制和维护。
- 支持多种任务类型: 支持Shell、MR、Spark、SQL等10余种任务类型,支持跨语言,易于扩展
- 丰富的工作流操作: 工作流程可以定时、暂停、恢复和停止,便于维护和控制全局和本地参数。
- 高可靠性: 去中心化设计,确保稳定性。 原生 HA 任务队列支持,提供过载容错能力。 DolphinScheduler 能提供高度稳健的环境。
- 高扩展性: 支持多租户和在线资源管理。支持每天10万个数据任务的稳定运行。
三、DolphinScheduler 核心架构
主要角色如下:
- MasterServer:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它 MasterServer 和 WorkerServer 的健康状态。
- WorkerServer:也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。
- ZooKeeper服务:系统中的 MasterServer 和 WorkerServer 节点都通过 ZooKeeper 来进行集群管理和容错。
- Alert服务:提供告警相关服务。
- API接口层:主要负责处理前端UI层的请求。
- UI:系统的前端页面,提供系统的各种可视化操作界面。
四、单机环境部署流程
1、下载安装包
地址:Index of /apache/dolphinscheduler/3.2.1
2、上传至服务器,解压缩
tar -zxvf apache-dolphinscheduler-3.2.1-bin.tar.gz
3、单机启动
./bin/dolphinscheduler-daemon.sh start standalone-server
4、登录 dolphinscheduler UI
浏览器输入地址:http://{所在服务器IP}:12345/dolphinscheduler/ui
用户名:admin
密码:dolphinscheduler123
【注