1. 事前:
a. 任务层面:根据峰值流量进行压力测试,并且留一定 buffer,用于事前保障任务在资源层面没有瓶颈
b. 指标层面:根据业务要求,上线实时指标前进行相同口径的实时、离线指标的验数
2. 事中:
a. 任务层面:贴源层监控 kafka 堆积延迟等报警检测手段,用于事中及时发现问题。比如的普罗米修斯监控 lag 时长
b. 指标层面:根据指标特点进行实时指标同环比对比监控、实时离线指标结果对比监控。这里的监控算法可以是阈值、时序异常算法等。检测到波动过大就报警。比如最简单的方式是可以通过将实时结果导入到离线,然后和离线指标对比;也可以构建异构数据源对比工具进行对比
3. 事后:
a. 任务层面:对于可能发生的故障类型,构建用于故障修复、数据回溯的实时任务备用链路
b. 指标层面:构建指标修复预案,根据不同的故障类型,判断是否可以使用实时任务进行修复。如果实时无法修复,构建离线恢复链路,以便使用离线数据进行覆写修复
Flink面试_001、你们公司是通过什么样的监控及保障手段来保障实时指标的质量?比如事前事中事后是怎么做的?
本文详细阐述了实时大数据处理的事前、事中和事后监控与故障管理策略。事前通过压力测试确保资源充足,离线验证指标准确性;事中采用监控工具如Prometheus检测Kafka延迟,实时离线指标对比预警;事后建立备用链路和修复预案,确保数据准确性和系统稳定性。

被折叠的 条评论
为什么被折叠?



