如何实现持续、主动、长效的数据治理?主动元数据或是最佳答案

元数据是数据治理的关键要素。长久以来,企业的元数据采集、管理与服务停留在“被动模式”,管理范围以表为主,采集与更新方式由人工完成,数据解析方式单一且无法保证准确率,更缺乏智能挖掘能力,应用场景有限。基于被动元数据的运动式数据治理历时久、人力消耗大且效果难以长效积累。

如何让元数据变“被动”为“主动”,走向场景化、自动化和智能化,是企业实现链路保障自动化、架构治理长效化的关键

01 数智化时代,数据治理面临新挑战

随着数字化持续深入,数据管道日益复杂,“多源异构”数据增多,包括数据库、Log 日志和非结构化数据等。这些数据通过 ETL 加工入仓、入湖,随后经多层数据建模,转化为结构化的宽表或数据看板,最终应用于各类业务看数或数据分析场景,辅助业务决策。在此背景下,传统的人工 ETL 作业已经难以应对复杂的数据治理需求,急需升级到“自动化治理”。

一、数据加工链路愈发复杂。数据加工链路层级不断增长,数据交叉依赖日益加深,使得用户元数据管理,或者数据盘点和加工逻辑理解越来越困难,需要花费更多的时间去厘清数据链路。

二、数据变更协同不及时。企业内部,跨部门数据融合越来越多,上下游数据协同时效性难以保证。上游数据发生变更,无法及时准确地同步下游,也无法清晰判断对下游有哪些影响,导致链路末端报表、指标等应用出现数据延迟、数据错误。这就要求具备高效的数据监控和预警机制,实时追踪数据变更,自动触发通知,保证数据协同。

三、重复资产冗余浪费。数据需求量急剧增加,烟囱式开发模式不断涌现。A 部门和 B 部门即便基于相同底表,也可能独立开发并维护专属的应用表,以快速响应业务特定需求。尽管该策略短期内加快业务需求速度,但对于大型公司而言,不可避免地产生大量冗余表,占用存储资源,计算成本不断增加,进而影响到整体的运营效率和成本效益。

为此,我们认为,企业需要主动元数据的能力,来重构数据治理模式。

02 主动元数据,重构数据治理模式

那什么是主动元数据呢?我们认为它是一种动态、智能化的元数据管理技术,主要包含三个方面的能力:

一、全面。传统的元数据管理,主要聚焦于表、列等基础数据及数仓内任务的监管。今天,我们需要全面管理更为广泛的元数据范畴,包括脚本、模型、指标、报表以及数据使用行为等与数据相关的所有元数据。

二、精准。主动元数据能够通过自动化实时采集、动态更新,结合多样化的 SQL 和 PLSQL 语言解析,自动构建全面、准确、实时、精细的算子级血缘图谱,实现解析精准度大幅提升,清晰反应数据之间的依赖关系和流转路径。

三、智能。能够实时监控数据变更,预测数据质量问题和合规风险,提供智能化的建议。比如,通过实时监测调度运行延迟情况,智能评估对整个基线链路的潜在影响,进而为各个场景提供智能化建议,以保障业务稳定运行。

关于主动元数据跟被动元数据的区别,我们认为包括以下几点:

  • 管理范围:被动元数据以表为主,主动元数据包括表、脚本、模型、指标等一切与数据相关的元数据;
  • 采集方式:被动元数据以手工录入为主,主动元数据通过自动化采集方式;
  • 更新方式:被动元数据偏静态,人工触发,主动元数据自动化,动态更新;
  • 解析方式:被动元数据通过单一化方式完成,且准确率无法保证,主动元数据有多种方式,并能够保证解析准确率;
  • 智能挖掘:被动元数据不支持,主动元数据支持精准打标、智能扩散、自动口径提取、相似资产识别等;
  • 服务方式:被动元数据偏被动等待,主动元数据实时在线服务,主动触发;
  • 应用场景:被动元数据应用于数据理解、调度依赖配置等少数场景,主动元数据覆盖增强数据发现与理解、溯源盘点、影响分析、数据分类分级、质量监控等全部数据治理场景。

通过主动元数据平台,我们可以构建出一张全面、精细、准确、实时的血缘图谱,为用户提供更深刻的数据理解和智能化决策建议,而非只是简单的数据展示。通过这一能力,相当于为用户提供了一个 7x24h 在线的数据助手,能够实时管控数据动态情况,进而推动数据治理走向自动化和智能化,重构数据治理模式。

03 主动元数据关键技术突破——算子级血缘

要实现前面所提及的能力,主动元数据最关键的技术在于算子级血缘。那么,何为算子级血缘呢?

众所周知,数据血缘已经历两代的发展变革,第一代是表级血缘,第二代是字段级血缘。表级血缘和字段级血缘,主要依赖于脚本解析技术去构建表与表之间、字段与字段之间的血缘图谱。然而,现在绝大部分情况是,当前市场中的许多开源组件或商业化血缘产品,并不能实现数据血缘的自动化解析,也无法保证解析的准确性。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值