Apache DolphinScheduler 快速入门指南:构建你的第一个工作流
前言
Apache DolphinScheduler 是一个分布式、易扩展的可视化工作流任务调度系统,致力于解决数据处理流程中错综复杂的依赖关系。本文将带领初学者快速了解 DolphinScheduler 的核心概念,并完成第一个工作流的创建与执行。
环境准备
在开始之前,你需要确保已经完成了 DolphinScheduler 的安装部署。对于初学者,推荐以下两种部署方式:
- Standalone 模式:适合本地开发和测试环境,部署简单快捷
- Docker 方式:通过容器化部署,避免环境配置问题
安装完成后,你可以通过浏览器访问 Web UI(默认地址为 http://localhost:12345/dolphinscheduler/ui),使用默认账号 admin/dolphinscheduler123 登录。
核心概念解析
在开始创建工作流前,我们需要先了解 DolphinScheduler 的几个核心概念:
1. 用户与租户
- 用户(User):指登录系统的操作人员,拥有 Web UI 的操作权限
- 租户(Tenant):实际执行任务的 Linux 用户,与系统资源分配密切相关
租户机制是 DolphinScheduler 实现资源隔离的重要设计,每个任务最终都会以租户对应的 Linux 用户身份执行。
2. 项目与工作流
- 项目(Project):工作流的组织单元,所有工作流都必须归属于某个项目
- 工作流(Workflow):由多个任务节点组成的有向无环图(DAG)
实战:创建第一个工作流
第一步:创建租户
- 登录系统后,导航至"安全中心 -> 租户管理"
- 点击"创建租户"按钮
- 填写租户名称(建议使用小写字母和数字)
- 指定对应的 Linux 用户(需确保该用户已存在于 Worker 节点)
专业提示:如果没有显式指定租户,系统会使用默认租户"default"执行任务,这可能会带来权限问题。
第二步:用户关联租户
- 进入"安全中心 -> 用户管理"
- 找到目标用户(如admin)
- 在编辑界面为其分配刚创建的租户
第三步:创建项目
- 点击顶部导航栏的"项目管理"
- 点击"创建项目"按钮
- 填写项目名称和描述
- 确认创建
第四步:创建工作流
- 进入刚创建的项目
- 切换到"工作流定义"标签页
- 点击"创建工作流"按钮
- 系统将跳转至工作流编辑页面
第五步:添加任务节点
- 从左侧工具栏拖动"Shell"任务到画布
- 配置任务属性:
- 节点名称:建议使用有意义的名称
- 脚本内容:填写要执行的Shell命令
- 重复上述步骤添加第二个任务
第六步:建立任务依赖
- 将鼠标悬停在第一个任务上
- 拖动箭头到第二个任务
- 释放鼠标完成依赖关系建立
- 点击右上角"保存"按钮,填写工作流名称
第七步:运行工作流
- 返回工作流列表
- 点击"上线"按钮使工作流生效
- 点击"运行"按钮启动工作流
- 在"工作流实例"页面查看运行状态
第八步:查看执行日志
- 进入"工作流实例"页面
- 找到目标实例
- 右键点击任务节点
- 选择"查看日志"查看详细执行信息
最佳实践建议
- 命名规范:为租户、项目、工作流和任务制定统一的命名规则
- 权限控制:合理分配租户权限,避免使用root等高权限账户
- 任务拆分:将复杂流程拆分为多个小任务,便于维护和问题排查
- 日志记录:在Shell脚本中添加必要的日志输出,方便后续排查问题
总结
通过本教程,你已经掌握了 DolphinScheduler 的基本操作流程。从租户管理到工作流创建,再到任务执行与监控,这些构成了 DolphinScheduler 最核心的使用场景。建议在实际使用中,先从简单的流程开始,逐步熟悉系统的各项功能,再尝试构建更复杂的工作流。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考