大数据平台的元数据管理

本文介绍了大数据平台中元数据的概念,强调元数据管理的重要性,包括提高数据分析效率、优化系统、保障数据安全等。列举了应纳入管理的元数据类型,如数据表结构、磁盘空间、权限归属、血缘关系和业务属性,并讨论了如何通过集成开发流程自动收集元数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概念解释

1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。
2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁盘空间等等。

为什么要做元数据管理

1,管理元数据的好处——有助于用户更高效地分析数据,有助于系统和业务的优化,有助于数据的安全管控,有助于数据生命周期的管理,有助于任务问题的排查,有助于数据质量的保证。
2,怎样发挥元数据的价值——元数据信息通过服务的形式(例如REST接口)提供给上下游系统使用。

哪些数据纳入元数据管理

这个问题也就是元数据管理到底是管理什么。对大数据开发平台来说,常见的元数据包括以下6点:
1,数据表的结构schema信息
(1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name来获取表结构;hive中可以用HQL的SHOW PARTITIONS table_name获取该表的分区信息
(2) 表结构的变迁记录,例如mysql中的某表增/减了一个什么字段、修改了什么字段等信息
2,数据占用的磁盘空间
(1) 记录表数据占用的空间的大小以及增长趋势
(2) 新增了几张表、删除了几张表、创建了多少个分区
3,数据的读写记录
(1) 记录修改表的是什么人,以及什么时候修改的
(2) 记录哪些数据已经长时间没有被读取或更新了
4,数据的权限归属
(1) 哪些人有权限查阅数据
(2) 哪些人有权限管理数据
5,数据的血缘关系
(1) 数据的上游和下游是哪里,也就是数据从哪来的、将会用到哪里去
(2) 收集数据的血缘关系的作用——如果某数据有问题,可检查它的上游数据以便定位问题;也有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值