教你数分钟内创建并运行一个 DolphinScheduler Workflow！

最新推荐文章于 2025-10-30 11:48:05 发布

原创

最新推荐文章于 2025-10-30 11:48:05 发布 · 692 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#海豚调度 #大数据 #java #大数据调度 #开源 #科技

Workflow是什么？

对于数仓场景和数据湖场景来说，最显著的特点就是数据处理的长流程和高复杂度任务依赖关系，从源数据采集到最终报表数据的生成，中间可能经历上百个任务的处理，这些任务如果是散乱的，无明确的流程组织起来，中间某一个步骤出问题，就很难发现其影响范围，更加难以判定对其他依赖的任务的影响程度。

任务需要被有效地组织并流程化处理。这就需要Workflow 。DolphinScheduler 中 Workflow 通过 DAG（有向无环图）的方式操作。DAG 是由多个顶点(tasks)和其他顶点的之间关系(Relationships)构成，图形化的 Workflow 可以很直观地看到任务之间的关系，任意任务之间不能形成环。使用 Workflow 管理任务可以让数据处理流程更有层次，加上任务血缘展示，可以让整个数据处理流程更可视化和清晰明了。

本文就主要探讨如何在 ApacheDolphinScheduler 上更好地玩转 Workflow，以帮助大家更好地管理数据处理任务。

创建工作流

根据需求，在 ApacheDolphinScheduler上，可以通过页面拖拽、Python脚本、yaml定义、OpenAPI调用多种方式创建工作流。这一点相对 Apache Airflow 来说，要更容易上手一些，比较适合平台使用者为多个部门的人员，比如分析师、数据科学家等，毕竟所见即所得比起调试 Python 代码要来得更简单直接一些。

我们以最简单的页面拖拽为例，假如有一个最简单的场景，从一个文件获取日志数据get-logs，然后分别经过处理日志1 read-file1 和日志2 read-file2，每个文件经过统计，输出到不同的数据表output1, output2，如果两个文件都读取成功，要汇聚总表 output-summary.