要实现主动元数据,关键技术在算子级血缘解析

主动元数据管理最早被 Gartner 在 2016 年提出,在 2022 年 Gartner 公布的顶级战略技术趋势中,主动元数据被认为是实现 Data Fabric(数据编织)和主动数据治理的基石,也是实现 Data Fabric 的关键能力 。在这份技术趋势研究报告中,Data Fabric 作为一种面向未来的数据管理架构思想,入选为工程信任主题的关键技术趋势。

Gartner 认为,主动元数据是对所有可用的用户、数据管理、系统/基础设施和数据治理实践报告的持续分析,以确定数据设计与实际情况是否对齐或出现异常情况。

在 Aloudata 看来,主动元数据强调更深度更持续的数据理解,不只理解数据的 Schema、产出时间等基础信息,更多是要理解数据的加工口径、业务主体、汇总粒度及如何正确使用等;强调更主动的元数据服务,不再被动等待用户去数据目录检索信息,而是主动提供设计建议,抑或是可被系统执行的指令;强调与数据工具的主动集成,能够贯穿数据生产、消费、协同等环节,提供智能化建议,实施更主动的数据治理策略。

要实现主动元数据,关键技术在于算子级血缘解析。

数据血缘我们都不陌生,它描绘了数据的起源、流经路径及其转换过程的详尽记录,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,从而帮助企业分析并监控数据在业务链条中的上下游依赖关系,为企业提升数据管理效率和质量提供“洞察能力”。

而数据血缘解析已经历了两代的发展变革。第一代是表级血缘,即关注表与表之间的依赖关系。然而,即便实现了 100% 准确的“表级血缘”追踪,但在实际业务场景中的应用受限。因为表与表之间的关系具有高度泛化性,在下探或上溯多层后扩散出百倍、千倍的上下游,使用难度大。

第二代是列级血缘。诸多厂商,包括开源界的 Atlas 项目等,都尝试通过关系推断和正则匹配方式构建上下游字段之间的依赖关系。但由于技术解析的复杂性和局限性,绝大多数厂商对列级血缘的解析准确率持谨慎态度。根据人工抽检统计,多数厂商的列级血缘准确率普遍低于 80%,这一使得众多企业在实际应用中对此技术持保留态度,担忧其稳定性和可靠性。

在此背景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值