介绍一个数据血缘的项目 OpenLineage

本文介绍了OpenLineage项目,一个旨在提供数据血缘追踪的开源标准,以解决大数据环境下数据来源复杂、数据依赖关系难以追溯的问题。OpenLineage通过统一的数据模型,连接各种数据处理工具,如Airflow、Spark等,提供数据血缘的可见性和一致性。此外,还提到了Marquez作为OpenLineage的推荐实现,并讨论了其选择不实现列级别血缘的原因。尽管OpenLineage有成为行业标准的潜力,但目前其他类似项目如Databub、Amundsen并未明显受其影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

“大数据”这个概念逐渐深入人心,很多公司都面临的着:

  • 工具和平台的数量爆炸式增长

  • 越来越多的人开始使用数据、应用数据

  • 对于一个大企业而言,每个子公司/部门可能都有着属于自己的数据团队

总的来说,就是“大数据”中的“大”不仅仅是数据量大,也指的是数据种类多、数据来源复杂,不同的数据被各式各样的人使用。如何发现数据,确定数据的来龙去脉就成了一个急迫的问题。

OpenLineage 应运而生。

介绍 OpenLineage

OpenLineage 可以翻译成开源血缘。按照这个项目的发起者 Julien Le Dem 的说法,“数据血缘需要遵循开源社区贡献者商定的标准,以保证其各自解决方案生成的元数据的兼容性和一致性。”

Data lineage needs to follow a standard agreed upon by contributors to the open source community to guarantee the compatibility and consistency of the metadata produced by their respective solutions.

它回答的问题是:“谁生产数据?它是如何转变的?谁在使用它?数据血缘是 DataOps 的支柱,它提供了对组织内数据旅程中系统和数据集交互的可见性。”

Data lineage is the backbone of DataOps, providing visibility into the interaction of systems and datasets across the journey of data within an organization.

也给出了一个可用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值