
AIOps
文章平均质量分 95
将人工智能/ML或其他高级分析技术应用于业务和运维数据,使团队能够更快地解决事件,并帮助完全避免事件
@SmartSi
Stay Hungry, Stay Foolish
展开
-
指标归因在互联网平台的应用
大家在工作中经常会看很多的报表,在查看报表的过程中会发现指标并不是稳定不变的,而是可能会有各种各样的变化,比如下降、上升或者突变。指标的波动其实反映的是业务的实际波动。所以,一旦发生变化,我们会问一些问题,比如在一个持续下降的图表里面,我们会好奇是什么原因导致指标发生了波动,以及不同原因对指标波动的影响有多大。所以,简单来说,指标归因本质上就是定位指标波动的核心影响因素。指标归因主要分为三大步骤:首先需要明确问题,其次是分析定位问题,最后是去解决问题。第一个案例是基于确定性判断的方法。转载 2024-10-31 22:25:47 · 777 阅读 · 0 评论 -
微信亿级用户异常检测框架的设计与实践
如何在大规模数据下检测异常用户一直是学术界和工业界研究的重点,而在微信安全的实际生态中,一方面,黑产作恶手段多变,为了捕捉黑产多变的恶意模式,若采用有监督的方法模型可能需要频繁更新,维护成本较高;另一方面,通过对恶意帐号进行分析,我们发现恶意用户往往呈现一定的“聚集性”特征,因此这里需要更多地依赖无监督或半监督的手段对恶意用户进行检测。然而,微信每日活跃帐号数基本在亿级别,如何在有限的计算资源下从亿级别帐号中找出可疑帐号给聚类方案的设计带来了不小的挑战,而本文则是为了解决这一问题的一个小小的尝试。转载 2024-04-20 22:57:45 · 76 阅读 · 0 评论 -
蚂蚁金服异常检测和归因诊断分析实践
在实际工作中,我们常常受到业务方对关键绩效指标(KPI)的灵魂拷问:某个 KPI 指标为什么会上升或下降?归因诊断的任务就是解释这些指标变化的原因。转载 2024-04-19 07:22:48 · 152 阅读 · 0 评论 -
异常检测:百度是这样做的
异常检测需要监控的业务繁多,覆盖了搜索、广告、地图、糯米等百度大部分的产品业务。及时发现这些业务请求数、拒绝数、响应时间、流水和订单等数据的异常波动,是业务稳定性的重要保证。这些数据不但数量众多,而且不同业务的曲线也有截然不同的特征。第一幅曲线图中有蓝、绿两根曲线,分别代表当前时刻数据和上周同一时刻的数据。蓝色曲线几乎完全覆盖了绿色曲线,说明数据有规整的周期特性。第二幅曲线图中,紫色曲线是当前时刻数据,蓝色曲线是上一周的数据。可以看出:数据有一定的周期性,但又不如第一幅图那么规整。转载 2024-04-06 15:33:07 · 199 阅读 · 0 评论 -
可观测 AIOps 的智能监控和诊断实践
AIOps 是否是个摆设?如何衡量 AIOps 的业务价值?AIOps 如何落地,落地成本有多大?我期待今天在分享过程中,能够让大家对灵魂拷问产生一些思考和找到一些答案。可观测这几年随着云原生的概念普及,被越来越多的人所关注和提及。但其本身并非新概念。最早的可观测概念来源于:控制论书,里面强调:要控制一个系统的前提是对其具有可观测性。新一代的可观测产品我们认为,必须以应用为中心,向上关联业务成败与用户体验,向下覆盖基础设施与云服务监控。转载 2023-10-23 08:42:53 · 291 阅读 · 0 评论 -
网易有数 指标波动多大才算是异常?
在各种业务指标中,数据往往不是静止不变的,尤其是当一些核心的指标发生了变化、波动时,就需要判断这样的波动是否属于异常的情况。那么波动了多大才能算是异常?本文将结合一些实际业务场景,来说明数据波动的异常判别方法。转载 2023-04-08 23:38:43 · 229 阅读 · 0 评论 -
携程火车票异常检测和根因定位实践
携程火车票包含1000+的业务指标,人工监测指标的异常情况耗时费力,而由于业务差异,基于规则和简单统计学的检测方案只能覆盖到单个指标或者单类指标,并且不能随着新业务上线或者功能变动灵活动态的调整相应的规则,并不适用于大量不同业务线的指标。我们希望使用AI算法来代替人工,对指标进行全自动的监控,旨在发现指标的异常和导致异常的潜在原因。具体来说,对于异常检测,使用六种无监督检测算法计算异常得分,根据时间序列特性和指标的业务特点计算异常阈值,集成多种算法的异常结果进行硬投票,得到异常结果。转载 2023-10-20 08:20:58 · 202 阅读 · 0 评论 -
HotSpot 蒙特卡洛树搜索定位多维指标异常
对于网络运维中多数的关键性能指标(KPI,CPU利用率、某页面点击量等),对其应用实时的异常检测算法,即可快速发现异常状况、进而及时止损,然而,有一类可加和的多维度KPI体系(如网页访问量PV、收入指标、错误计数等),其指标元素数目繁多、之间具有复杂的相互影响关系。如图 1表示一个4维的PV指标体系(由一系列3维的结构来表示),维度是Province,ISP,DC和Channel(简记为P,I,D,C),其中每个cell表示一个最细粒度的指标元素对应的PV值,例如,相应的也有较粗粒度的元素,例如。转载 2023-10-11 08:12:17 · 382 阅读 · 0 评论