下一代工作流-数据管道

本文介绍了传统数据开发中的ETL挑战,随后重点比较了Prefect和Dagster两种实时加工管道工作流工具,强调了Prefect的Pythonic设计、动态工作流和开源特性,以及Dagster在数据调度和全局平台集成的优势。这两种工具适用于ETL、数据集成、机器学习和数据分析等工作流程自动化。

介绍:

在传统的数据开发中,做数据仓库和数据数据集市都采用ETL工具,例如kettle等,调度采用azkaban 或者自己写一套调度工具,可是这些都是需要花费大量时间和人员进行相关配置。一个数仓项目做下来至少要6个月左右。

那么随着目前数据湖,湖仓一体,批流一体的出现,ETL得过程不单单 是写sql,做关联那么简单,需要有一个数据管道进行集成,并且这个管道是”现接现用“,就是需要动态配置。不是静态配置。

接下来介绍两款实时加工的管道工作流:Prefect 和Dagster 

最早工作流管道主要是Airflow ,但是是静态配置上下文,如果利用上层的datafrom.需要进行相关配置,而且支持不是很好,现在的工作流管道支持动态数据传递。

Prefect介绍:

Prefect 是一个 Python 的开源工作流程管理器,旨在简化和自动化数据工程、科学和分析任务的编排和执行。它提供了一个易于使用和可扩展的编程接口,可以帮助用户构建复杂的工作流程,并支持在各种环境中进行分布式执行,包括本地、云端和混合环境。Prefect 还提供了丰富的 API 和用户界面,让用户可以方便地管理和监控任务的执行状态和结果。通过使用 Prefect,用户可以更加高效和可靠地进行数据处理和分析工作。

prefect优势:

Prefect 是一个强大的工作流程管理工具,相较于其他类似的工具,它提供了多项优势。以下是 Prefect 相较于其他工作流程管理工具的几个优势:

  1. Pythonic:Prefect 完全采用 Python 构建,这使得 Python 开发

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值