告警事件如何与 CMDB 打通附加更多元信息

告警事件产生之后,会带有一些 labels、annotations、description 等信息,有时这些信息不够规整需要二次处理,有时这些信息不够丰富需要附加更多信息,才方便 SRE 等 OnCall 人员快速定位、解决问题。具体应该如何做?本文会分享一些思路,希望对大家有所帮助。

需求场景举例

为了方便理解,我举几个场景例子:

  • 比如,告警事件中包含 product、service 两个标签,我们可以基于这俩标签拼接出 SOP 地址,方便 OnCall 人员快速查看操作手册;
  • 比如,告警事件中缺少 owner 信息,但是包含机器 IP,我们可以基于机器 IP 查询 CMDB,找到 owner 信息,附加到告警事件中;

思路

大体上,可以把事件的处理看作一个 Pipeline,包含两个重要 Action:Relabel 和 Enrichment,有两个位置适合配置 Action:告警规则那里(用于规则颗粒度的细粒度控制)和 OnCall 中心(一些相对通用的逻辑),下面我们展开说明。

告警规则

一个告警规则通常关联一个监控指标,在告警规则这个颗粒度,会有需求做一些细粒度的处理,比如某个告警规则生成的事件包含很多标签,有些标签想 Drop 掉,或者有些标签想拼接在一起变成一个新标签,都可以使用 Relabel Action 来实现。

下面是夜莺的告警规则中配置事件 relabel 的例子,这个 relabel 和 Prometheus 的 relabel 配置类似,都是基于标签的匹配、替换、删除等操作,只不过 Prometheus 中是对指标做 relabel,夜莺这里是对事件做 relabel:

除了在告警规则颗粒度配置一些事件处理逻辑,还有一些通用逻辑希望在更中心化的地方配置,比如在 OnCall 中心配置事件的处理逻辑。下面我以 Flashduty OnCall 产品举例,看看 Flashduty 的处理思路,供大家参考。

OnCall 中心

OnCall 中心可以对接各类监控系统,比如 Prometheus、Zabbix、Nightingale 等,接收到告警事件之后,会对事件进行一些处理,比如附加更多元信息、降噪、发送通知等。我们可以在 Flashduty 中创建一个上报监控事件的管道(称为 integration),然后在管道后面配置一些事件处理逻辑。整个架构示意图如下:

Flashduty 中可以创建多个 integration(即刚刚提到的管道,在 Flashduty 中称为集成),然后给这个 integration 配置标签增强,目前支持提取标签、组合标签、映射标签、删除标签等操作。

这样一来,只要发往这个 integration(管道)的告警事件,都会经过这个 Pipeline,对事件标签做统一处理。这几个标签操作都可以见名知义,只有映射标签稍微复杂一些,这里额外做一个说明。

映射标签

因为 Flashduty 是一个 SaaS 服务,无法直接访问公司内部的 CMDB,所以我们需要把 CMDB 中的映射数据导入 Flashduty,然后在 Flashduty 中配置映射规则即可。比如服务器 10.68.5.6 的负责人是 zhangsan,我们就可以根据机器信息查询到 zhangsan,然后把 zhangsan 附加到告警事件中。比如:

原始告警事件:

映射规则:

映射结果:

Callback 思路

如果告警引擎可以直接调用公司内部的 API,那么可以直接在告警引擎中配置 Callback,直接调用公司内部的 API,获取元信息,然后附加到告警事件中。这样的话就不需要管理、同步映射数据了。

如果你用过 Flashduty 的告警引擎,通过其 --help 参数就可以看到 -alerter.enrich 相关的配置,就是采用这个思路来做的。

结语

本文以夜莺和 Flashduty 举例,讲解了多种告警事件处理、Enrich 的思路,希望对大家有所帮助。如果你有更好的思路,欢迎留言讨论。夜莺和 Flashduty 的介绍信息如下,可以自行体验:

【轴承故障诊断】加权多尺度字典学习模型(WMSDL)及其在轴承故障诊断上的应用(Matlab代码实现)内容概要:本文介绍了加权多尺度字典学习模型(WMSDL)在轴承故障诊断中的应用,并提供了基于Matlab的代码实现。该模型结合多尺度分析字典学习技术,能够有效提取轴承振动信号中的故障特征,提升故障识别精度。文档重点阐述了WMSDL模型的理论基础、算法流程及其在实际故障诊断中的实施步骤,展示了其相较于传统方法在特征表达能力和诊断准确性方面的优势。同时,文中还提及该资源属于一个涵盖多个科研方向的技术合集,包括智能优化算法、机器学习、信号处理、电力系统等多个领域的Matlab仿真案例。; 适合人群:具备一定信号处理和机器学习基础,从事机械故障诊断、工业自动化、智能制造等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①学习并掌握加权多尺度字典学习模型的基本原理实现方法;②将其应用于旋转机械的轴承故障特征提取智能诊断;③结合实际工程数据复现算法,提升故障诊断系统的准确性和鲁棒性。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,重点关注字典学习的训练过程多尺度分解的实现细节,同时可参考文中提到的其他相关技术(如VMD、CNN、BILSTM等)进行对比实验算法优化。
【硕士论文复现】可再生能源发电电动汽车的协同调度策略研究(Matlab代码实现)内容概要:本文档围绕“可再生能源发电电动汽车的协同调度策略研究”展开,旨在通过Matlab代码复现硕士论文中的核心模型算法,探讨可再生能源(如风电、光伏)大规模电动汽车接入电网后的协同优化调度方法。研究重点包括考虑需求侧响应的多时间尺度调度、电动汽车集群有序充电优化、源荷不确定性建模及鲁棒优化方法的应用。文中提供了完整的Matlab实现代码仿真模型,涵盖从场景生成、数学建模到求解算法(如NSGA-III、粒子群优化、ADMM等)的全过程,帮助读者深入理解微电网智能电网中的能量管理机制。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的研究生、科研人员及从事新能源、智能电网、电动汽车等领域技术研发的工程人员。; 使用场景及目标:①用于复现和验证硕士论文中的协同调度模型;②支撑科研工作中关于可再生能源消纳、电动汽车V2G调度、需求响应机制等课题的算法开发仿真验证;③作为教学案例辅助讲授能源互联网中的优化调度理论实践。; 阅读建议:建议结合文档提供的网盘资源下载完整代码,按照目录顺序逐步学习各模块实现,重点关注模型构建逻辑优化算法的Matlab实现细节,并通过修改参数进行仿真实验以加深理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜莺开源监控

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值