元数据
元数据概述
元数据定义
-
元数据( Metadata )是关于数据的数据
-
打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程
-
主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态
-
按用途分两类
-
技术元数据
-
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据
-
常见技术元数据类型
-
分布式计算系统存储元数据
- 理解为数据地图:如表、列、分区、责任人、生命周期等信息。
-
分布式计算系统运行元数据
- 理解为系统运行日志:类似Hive的job日志,包括作业类型、实列名称、SQL、运行参数、执行时间、最细粒度等
-
数据开发平台中数据同步、计算任务、任务调度等信息
- 理解为血缘关系:数据同步输入输出表与字段、计算任务、任务调度类型、依赖关系等
-
数据质量和运维相关元数据
- 理解为任务质量监控:任务监控、运维报警、数据质量、故障等信息,包括任务监控运行日志、告警配置及运行日志、故障信息等
-
-
-
业务元
-

本文介绍了阿里巴巴的大数据元数据,包括元数据的定义、价值和统一体系建设。元数据在数据管理、内容分析和应用方面起到关键作用,如驱动ETL开发、建立Data Profile、元数据门户和应用链路分析。同时,它还强调了元数据在数据建模中的指导作用,以及如何通过元数据进行数据质量与模型治理。
最低0.47元/天 解锁文章
2858

被折叠的 条评论
为什么被折叠?



