26、云数据平台元数据层实现方案解析

云数据平台元数据层实现方案解析

1. 管道活动元数据特性

管道活动元数据用于批量和实时管道,部分属性具有双重含义。例如,“开始时间”和“结束时间”属性对批量管道很适用,因为它们有明确的起止时间;而对于实时管道,可以使用预定义的时间窗口来收集统计信息,比如每五分钟获取一次实时统计数据,此时该管道的“开始时间”和“结束时间”就是一个五分钟的时间范围。这同样适用于其他与时间相关的属性,如“读取行数”“写入行数”等。将这个时间范围与为存档目的将实时数据刷新到云存储的频率保持一致是个不错的选择,这样从统计收集的角度来看,就把实时管道分解成了一系列批量管道执行。

为了强调收集管道信息的重要性,以下是一些可以针对这些数据提出的问题:
1. 给定管道的最后一次成功执行是什么时候?需要在活动元数据中找到状态为“成功”且开始时间最新的条目。
2. 给定管道执行的平均持续时间是多少?此问题仅适用于批量管道,因为实时管道有固定的统计收集时间窗口。要回答这个问题,需要对状态为“成功”的给定管道 ID 的“开始时间”和“结束时间”之差进行汇总,并排除失败的执行。
3. 该管道处理的平均行数是多少?当想为给定管道建立正常状态的基线时,这个问题很有用。它适用于批量和实时管道,要回答这个问题,需要对状态为“成功”的给定管道 ID 的“读取行数”和“写入行数”指标进行汇总。
4. 每天从给定的关系型数据库管理系统(RDBMS)表中摄取了多少数据?可以对“读取行数”进行类似的汇总,但这次不是按管道 ID,而是按特定的源 ID,并且只考虑成功的执行。

这些数据不仅可用于临时探索和故障排除,还能轻松用于云数据平台监控,确保在某个指标异常时收到警报。

2. 元数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值