突破数据发布难题!EasyData 实现血缘级精准发布

在数据平台建设中,数据隔离要求高的客户往往会划分开发环境与生产环境,数据开发在开发环境将任务开发完成后,需要将任务上线部署至生产环境。尤其是在金融行业,生产开发测试环境物理隔离更是政策监管上的强要求。

多套环境场景下,必然会带来环境间资源发布的需求,同时也会对数据平台提出如何更高效、更准确地完成发布的更高要求。

针对有多套数据开发环境需求的客户,EasyData的发布中心,可以又快又准地完成资源发布。当前,产品支持在线和离线场景下的跨环境资源发布。

发布的资源类型上,支持离线开发任务、实时开发任务、Hive表、质量监控任务、离线同步任务、数据服务API、参数组、流表等9种,同时基于客户不同的平台组织架构,也提供同平台跨项目-集群在线发布、跨平台在线发布、跨平台离线发布等各类发布模式。

在日常发布过程中,常常会存在以下发布场景:

1)ODS表的模型发生变更,该表的产出任务及其下游的部分表也需要同步调整。调整完毕后,需要将调整涉及的表和任务都打包发布至接收方;

2)下游数据应用(如BI报表)需要使用部分ADS表的产出数据,故需要将该ADS表和该表的产出任务及其上游的表和任务都打包发布至接收方。

在以上的发布场景中,目前都需要由发布人员去手动筛查和确定要发布的表和任务,极其耗时,且容易遗漏。支持基于血缘添加资源后,可以将手动筛选和添加资源的过程产品化,进而大幅提升发布效率。

支持基于数据血缘添加上下游的Hive表、数据服务API、离线开发任务和离线同步任务。批量选择源头资源后,可基于血缘添加上下游的Hive表、数据服务API、离线开发任务和离线同步任务,并支持配合血缘类型、添加资源类型、资源更新时间、资源打包状态等添加条件来联合筛选资源。

在资源列表页,点击【查看发布池】进入发布池页面,再点击【基于血缘添加】即可进入添加页。

支持以Hive表、数据服务API、离线开发任务和离线同步任务中的任一资源类型作为源头资源,默认最多可以添加200个源头资源。

选择源头资源后,点击“下一步”,进入确定添加资源该步骤的页面,并默认会添加上下游一层的资源。

在此页面,支持根据以下资源添加条件去加载上下游资源,支持的资源添加条件包含:添加资源范围(上下游、仅上游、仅下游)、血缘类型(静态/活跃血缘)、添加资源类型(Hive表、数据服务API、离线开发任务、离线同步任务)、资源更新时间、资源打包状态(未打包、更新待打包、已打包)。

重新添加资源后,默认会加载符合条件的首层资源。如需获取更多层级的资源,可点击上下游处的“加载一层”去向更上游/更下游加载资源。

上下游资源加载完成后,默认会全选加载出的所有资源(除跨项目-集群的资源),也支持选择其中的部分资源来添加至发布池。点击“确定”按钮后,即可将选中的资源添加到发布池。

点此咨询同款解决方案>>

此外,也支持点击“下载资源清单”按钮,将已加载的资源下载为Excel文件,供本地查看。

上下游资源示例:

以Hive表作为源头资源时,上游1层的资源包含:以该Hive表作为输出表的离线开发任务/离线同步任务、该Hive表的直接上游Hive表,下游1层的资源包含:以该Hive表作为输入表的离线开发任务/离线同步任务、该Hive表的直接下游Hive表、使用该Hive表的数据服务API。

以离线开发任务/离线同步任务作为源头资源时,上游1层的资源包含:该任务的输入表、以该任务的输入表作为输出表的离线开发任务/离线同步任务;

下游1层的资源包含:该任务的输出表、以该任务的输出表作为输入表的离线开发任务/离线同步任务、使用该任务的输出表的数据服务API。

以数据服务API作为源头资源时,上游1层的资源包含:该API使用的Hive表、以该API使用的Hive表作为输出表的离线开发任务/离线同步任务,无下游资源。

计算逻辑说明:

1、会根据“添加资源范围”和“血缘类型”来计算上下游资源。举例来说,如添加资源范围为仅上游,血缘类型为活跃血缘,则仅加载上游血缘、不加载下游资源;只加载活跃血缘链路上的资源,不加载静默血缘链路上的资源。

举个例子,如表a的上游1层静默血缘是表2,表2的上游1层活跃血缘是表3,由于表2不在表1活跃血缘的添加资源范围内,会连带导致表2的上游活跃血缘表3也不在添加资源范围内;

2、会根据“添加资源类型”、“资源更新时间”和“资源打包状态”来控制资源是否可选。举例来说,如【“添加资源类型”=全部,“资源更新时间”=全部,“资源打包状态”=更新待打包】,加载资源时会将所有资源打包状态的资源均加载并展示在资源列表中,但除“资源打包状态”为更新待打包外的资源均置灰不可选,以避免出现类似情况:

下游第n层某资源的状态为已打包,该资源的下游一层资源的状态为更新待打包,由于加载资源时过滤了该资源,导致漏加载其下游1层资源;

3、加载上下游资源时,会加载血缘链路上跨项目-集群的资源及其上下游资源,但跨项目-集群的资源置灰不可选。

BI报表需要使用某ADS表的产出数据,ADS表的表名为:qg_test.submit_160_flow01_center,需要识别出【该ADS表及其上游】【近一周内】【新增或更新且未打包发布】的【离线开发任务和Hive表】,打包发布至接收方。

资源类型选择Hive表,并搜索选中表:qg_test.submit_160_flow01_center,如图所示:

1、修改添加条件为:添加资源范围=仅上游,添加资源类型=离线开发任务、Hive表,资源更新时间=近七天,资源打包状态=未打包、更新待打包,点击“重新添加”,获取源头资源及其上游一层资源;

2、逐次点击“加载一层”按钮,直至更上游层级的资源数为0时停止加载;

3、点击“确定”按钮,将所有符合条件的资源添加到发布池。

点此咨询同款解决方案>>

以上就是发布中心基于血缘添加资源的实践案例。通过自动解析数据血缘图谱,可以准确地识别上下游关联资源。通过「更新时间+打包状态」双维度筛选,确保每次发布仅包含变更最小集。

通过该功能,可将原本需数小时的手工筛查压缩至3分钟一键完成,实现从「人肉运维」到「智能推荐」的范式跃迁。

欢迎咨询了解和试用网易数帆EasyData大数据开发及管理平台发布中心产品功能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值