8、云数据平台分层架构解析

云数据平台分层架构解析

1. 编排与ETL覆盖层概述

在云数据平台架构中,有两个组件需要特别关注,即编排层和ETL覆盖层。在许多云数据平台的实现中,这两层的职责分散在多个不同的工具中。

2. 编排层

编排层在云数据平台架构中承担着重要任务:
- 依据依赖图协调多个数据处理作业。依赖图包含每个数据处理作业的依赖列表,如每个作业所需的数据源以及作业之间的依赖关系。
- 处理作业失败和重试情况。

现代云数据平台架构由多个松散耦合的层通过元数据层相互通信构成,而编排层则是协调各层工作的关键组件。它是一个面向行动的组件,主要功能是让数据工程师构建具有多个相互依赖关系的复杂数据流。

例如,某零售商希望比较线上和线下商店的畅销产品。为此,需要从企业资源规划(ERP)系统获取产品信息,第三方销售点(POS)提供商定期提供线下商店的销售数据,而线上商店的销售数据则以点击流数据的形式实时获取。为生成畅销产品比较报告,需要创建两个数据转换作业:第一个作业将产品信息与POS销售数据结合;第二个作业使用点击流数据,并将其与第一个作业的输出结合,以生成比较数据集。

由于三个数据源的数据更新时间不同,如POS和产品数据可能每天仅更新一次,而点击流数据是实时的。如果不进行作业协调,最终的数据产品可能会出现结果错误或不完整的问题。

解决这一挑战有两种方法:
- 合并作业 :将两个作业合并为一个,并安排在所有三个数据源的最新数据可用时运行。然而,随着数据管道复杂性的增加,开发和维护这种整体式数据处理作业将变得困难,且不利于特定组件的更改、测试以及不同团队的协作。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值