封神-核心功能 | 钉钉告警+数据网关

本文介绍了封神系统,针对租户运维能力弱、问题排查低效、监控缺失等问题,通过钉钉告警实现业务稳定监控和SLA量化。系统架构包括客户端和服务器端,提供了告警数据、全量数据和性能数据获取,以及数据网关的接收功能。重点展示了姜子牙、申公豹等告警模块,以及通过自动化处理提高故障响应速度。
简介:封神-核心功能 | 钉钉告警+数据网关

0.png

1. 开发背景

1.1 用户痛点

①租户侧运维能力弱
问题:租户侧,客户没有有效途径,及时地获取实例级的状态、性能、容量的数据。
现状:每日固定时间,驻场需要人肉收集数据,钉钉定时推送给客户。
②问题排查效率低
问题:应用业务有问题,云平台产品正常,客户并不认可,需要帮助客户解决问题。
现状:发现应用实例出现性能、容量被打满的问题,这个排查过程往往冗长, 效率很低。
③监控能力缺失
问题:云平台监控不全,容量管理、性能管理等报表能力缺失。
现状:驻场需要通过大量人肉巡检,或者编写脚本。
④监控 方式时效性低
问题:业务侧总会优先于应用与云平台感知到故障,运维非常被动 。
现状:客户发现问题,通知应用,应用检查后,再溯源到云平台,排查链路串行并且低效。

1.2 解决方案

①保障业务稳定
通过云产品的服务能力的变化情况及业务仿真模型的建立,提前预知客户业务健康度,低于基线后便会触发告警。
②SLA化展示
触发阈值自动报警,量化产品健康状况。

2. 开发设计

2.1 系统架构

1.jpg
图1:系统架构图

封神系统架构如图1所示,分为CLIENT与SERVER端两大模块。

  • CLINET端:部署在经典网铜雀容器内,通过定时任务控制去采集云内各产品数据。
  • SERVER端:部署在VPC内ECS上,系统框架为FLASK,分为数据处理与数据存储两大部分。

    ①数据处理是指通过提供API接受CLIENT的数据并进行入库操作以及数据的前端展示。
    ②数据存储是指借助阿里云RDS数据库,对数据进行持久化操作作。

2.2 业务架构

2.png
图2:业务架构图

封神业务架构如如2所示,分为五大板块。

  • 姜子牙:租户侧告警,主要包括ECS、RDS等云产品实例性能以及业务相关告警。
  • 申公豹:运维侧告警,主要包括云产品健康状态、水位容量等相关告警。
  • 雷震子:硬件告警,主要包括坏盘,物理机带外等告警。
  • 比 干:安全告警,主要来自云盾相关安全类告警。
  • 杨 戬:故障告警,主要对各产品数据进行SLA算法处理,设置P0,P1等级故障阈值。

3. 钉钉告警

3.1 告警分类

机器人创建方式可参考文后资料[1]了解详情。

姜子牙

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值