产品经理说| AIOps 让告警变得更智能 (下)

AIOps 人工智能和IT运营支撑 Ops 之间的故事,愈演愈烈,已经成为当今运维圈的热门话题,我打算从2篇文档分享我们在 AIOps 上一些探索和实践。(上篇)主要介绍了为什么事件(告警)处理需要 AIOps;(本篇)主要分享OneAlert 事件处理平台在 AIOps 方面的探索。

上篇提到规模化的 IT 事件管理中,需要人工智能识别重要信息,去除噪音,甄别关键信息,减少人力工作量。

举个栗子:假设某企业的 IT 环境中的某个底层基础设施,如网络或存储设备出现异常,相关联的主机、中间件数据库、消息队列、缓存,应用程序,业务服务会受到影响。当监控和管理系统全面的探测发现这些问题的话,会瞬间(数十秒)产生大量的事件,而且这些事件随着时间的推移不断的发生(1-2分钟),假设都加入通知提醒的话,邮箱瞬间爆满。实际上,随着规模化和复杂度增加,这些现象经常性发生。

OneAlert 在事件(告警)处理方面经营多年,借助人工智能技术,在以下几个方面进行探索,尝试解决上述问题:

  • 降噪,消除不重要的事件,识别重要关键信息,避免告警疲劳。

  • 聚类,将相关的事件聚合起来,分门别类,特别是在告警风暴方面应用。

  • 识别根因,在数千事件中识别出可能是根因的问题。

  • 决策支持,相似问题推荐,实现知识复用。

 

产品经理说| AIOps 让告警变得更智能 (下) 技术分享 第1张

 

基本核心思路是对数据进行处理,将成千上万的事件过滤、甄别、筛选,如漏斗般,多层过滤杂质,沉淀下金沙。

降噪

当大量的杂音事件频发骚扰我们工程师,会引发告警疲劳,就是所谓的无感。体现为事件太多,跟己相关的较少,重要的事情淹没在汪洋大海中。

降噪的目的,就是去除噪音,留下乐章。事件处理过程中,传统的做法是去重,将重复的事件去除掉,简单有效。OneAlert 早期版本就是这样,从时间维度上,相同的事件仅发生一次,之后再发生只会在事件的计数器上体现。基本上该方法能达到 80%-95% 左右的压缩率,刨去杂音,将数万数千事件缩减为数百和数十。

OneAlert 的新用户会有一个习惯过程,从 Zabbix 或者其他监控工具过来的相同事件,只会合并为一条,通过分发升级机制通知

<think>好的,用户现在想了解产品经理在设计订阅推送告警时的最佳实践或方法论。我需要先理清用户的需求,可能他们正在负责相关功能的设计,或者想优化现有的告警系统。首先,用户提到的“订阅推送告警”涉及用户订阅特定的通知,当某些条件触发时,系统会推送告警信息。产品经理在设计这类功能时需要考虑多个方面,比如用户需求分析、系统可靠性、用户体验等。 接下来,我应该从方法论入手,分步骤明最佳实践。首先,可能需要明确核心目标,比如确保告警的及时性和准确性,同时减少用户的信息过载。然后,需求分析阶段,产品经理需要了解不同用户群体的需求,比如运维人员可能需要实时告警,而普通用户可能关注非工作时间的通知设置。 然后是分级分类设计,用户可能希望根据告警的紧急程度进行分级,比如紧急、重要、一般等级别,不同级别对应不同的推送方式和频率。同时,订阅管理也很重要,用户需要有灵活的选择权,比如选择接收哪些类型的告警,设置免打扰时段等。 接下来是触发机制和推送策略,这里需要考虑触发条件的精准性,避免误报和漏报。推送渠道的选择也很关键,比如短信、邮件、APP推送等,不同渠道的到达率和及时性不同。另外,用户体验方面,需要优化通知内容的清晰度,提供后续处理建议,比如在告警信息中附带解决链接或步骤。 数据监控与迭代部分,产品上线后需要持续收集用户反馈,分析告警的有效性,比如响应率、误报率等指标,并不断优化算法和规则。此外,系统容灾和隐私保护也是不可忽视的,确保在极端情况下仍有备份方案,同时遵守数据保护法规。 可能用户没有明确提到的需求包括多平台适配、国际化支持(比如时区处理)、权限管理(不同角色接收不同级别的告警)等。需要确保这些方面也被考虑到最佳实践中。 最后,生成的相关问题需要围绕用户可能进一步关心的点,比如如何平衡及时性与打扰,如何设计分级逻辑,如何评估告警系统的有效性等。这些问题可以帮助用户深入理解设计的各个方面,并找到优化的方向。</think>### 产品经理设计订阅推送告警的5大核心方法论 一、需求分层与场景化设计 1. 通过用户旅程地图识别关键触发节点,例如: - 运维场景:服务器负载超过阈值$>90\%$时触发实时告警 - 业务场景:交易量异常波动超过$\pm3\sigma$时推送预警 2. 建立分级响应机制: $$告警等级 = \frac{紧急度 \times 影响范围}{响应时效}$$ 引用金融行业标准的四色分类法(红/橙/黄/蓝)[^1] 二、订阅管理三维度模型 1. 渠道维度:移动端推送、短信、邮件的多通道冗余设计 2. 时间维度:支持按工作日/节假日设置免打扰时段 3. 内容维度:允许用户自定义关键词过滤规则 三、智能降噪策略 1. 应用时间序列预测模型: $$y_t = \alpha x_t + (1-\alpha)y_{t-1}$$ 其中$\alpha$为平滑系数,用于识别异常波动 2. 关联分析算法减少重复告警: 使用Apriori算法挖掘事件关联规则[^2] 四、闭环验证机制 1. 设计端到端确认流程: ```mermaid graph LR A[触发规则] --> B[状态检测] B --> C{满足条件?} C -->|| D[多渠道推送] D --> E[用户确认] E --> F[关闭工单] ``` 2. 建立反馈评分体系: $$满意度 = \frac{\sum有效告警}{\sum总告警} \times 响应时效系数$$ 五、容灾与合规设计 1. 实现双通道心跳检测: $$健康度 = \begin{cases} 1 & \text{if } RTT < 300ms \\ 0.5 & \text{if } 300ms \leq RTT < 1s \\ 0 & \text{otherwise} \end{cases}$$ 2. GDPR合规要求下,采用差分隐私技术处理用户数据: $$\varepsilon-\text{differential privacy保证值} \leq 0.5$$
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值