vivo服务端监控架构设计与实践

本文详细介绍了vivo服务端监控系统,包括监控的基本流程、OpenTSDB的使用、监控系统架构演进、核心指标和告警策略。系统通过JVM、系统和业务指标监控,提供实时告警服务。文中还对比了Zabbix、Open-Falcon和Prometheus等监控方案,展示了vivo监控的特色和优势,如基于OpenTSDB的改造以支持空值插入,以及提供SDK和多种数据上报方式。

一、业务背景

当今时代处在信息大爆发的时代,信息借助互联网的潮流在全球自由的流动,产生了各式各样的平台系统和软件系统,越来越多的业务也会导致系统的复杂性。

当核心业务出现了问题影响用户体验,开发人员没有及时发现,发现问题时已经为时已晚,又或者当服务器的CPU持续增高,磁盘空间被打满等,需要运维人员及时发现并处理,这就需要一套有效的监控系统对其进行监控和预警。

如何对这些业务和服务器进行监控和维护是我们开发人员和运维人员不可忽视的重要一环,这篇文章全篇大约5000多字,我将对vivo服务端监控的原理和架构演进之路做一次系统性整理,以便大家做监控技术选型时参考。

vivo服务端监控旨在为服务端应用提供包括系统监控、JVM监控以及自定义业务指标监控在内的一站式数据监控,并配套实时、多维度、多渠道的告警服务,帮助用户及时掌握应用多方面状态,事前及时预警发现故障,事后提供详实的数据用于追查定位问题,提升服务可用性。目前vivo服务端监控累计接入业务方数量达到200+,本文介绍的是服务端监控,我司还有其他类型的优秀监控包括通用监控、调用链监控和客户端监控等。

1.1 监控系统的基本流程

无论是开源的监控系统还是自研的监控系统,整体流程都大同小异。

1)数据采集:可以包括JVM监控数据如GC次数,线程数量,老年代和新生代区域大小;系统监控数据如磁盘使用使用率,磁盘读写的吞吐量,网络的出口流量和入口流量,TCP连接数;业务监控数据如错误日志,访问日志,视频播放量,PV,UV等。

2)数据传输:将采集的数据以消息形式或者 HTTP 协议的形式等上报给监控系统。

3)数据存储:有使用 MySQL、Oracle 等 RDBMS 存储的,也有使用时序数据库OpenTSDB、InfluxDB 存储的,还有使用 HBase 直接存储的。

4)数据可视化:数据指标的图形化展示,可以是折线图,柱状图,饼图等。

5)监控告警:灵活的告警设置,以及支持邮件、短信、IM 等多种通知通道。

1.2 如何规范的使用监控系统

在使用监控系统之前,我们需要了解监控对象的基本工作原理,例如JVM监控,我们需要清楚JVM的内存结构组成和常见的垃圾回收机制;其次需要确定如何去描述和定义监控对象的状态,例如监控某个业务功能的接口性能,可以监控该接口的请求量,耗时情况,错误量等;在确定了如何监控对象的状态之后,需要定义合理的告警阈值和告警类型,当收到告警提醒时,帮助开发人员及时发现故障;最后建立完善的故障处理体系,收到告警时迅速响应,及时处理线上故障。

二、vivo服务端监控系统架构及演进之路

在介绍vivo服务端监控系统架构之前,先带大家了解一下OpenTSDB时序数据库,在了解之前说明下为什么我们会选择OpenTSDB,原因有以下几点:

1) 监控数据采集指标在某一时间点具有唯一值,没有复杂的结构及关系。

2)监控数据的指标具有随着时间不断变化的特点。

3)基于HBase分布式、可伸缩的时间序列数据库,存储层不需要过多投入精力,具有HBase的高吞吐,良好的伸缩性等特点。

4)开源,Java实现,并且提供基于HTTP的应用程序编程接口,问题排查快可修改。

2.1 OpenTSDB简介

1)基于HBase的分布式的,可伸缩的时间序列数据库,主要用途就是做监控系统。譬如收集大规模集群(包括网络设备、操作系统、应用程序)的监控数据并进行存储和查询,支持秒级数据采集,支持永久存储,可以做容量规划,并很容易地接入到现有的监控系统里,OpenTSDB的系统架构图如下:

图片

(来自官方文档)

存储结构单元为Data Point,即某个Metric在某个时间点的数值。Data Point包括以下部分:

  • Metric,监控指标名称;

  • Tags,Metric的标签,用来标注类似机器名称等信息,包括TagKey和TagValue;

  • Value,Metric对应的实际数值,整数或小数;

  • Timestamp,时间戳。

核心存储两张表:tsdb和tsdb-uid。表tsdb用来存储监控数据,如下图:

图片

(图片出处:https://www.jianshu.com

Row Key为Metric+Timestamp的小时整点+TagKey+TagValue,取相应的字节映射组合起来;列族t下的Qualifier为Timestamp的小时整点余出的秒数,对应的值即为Value。

表tsdb-uid用来存储刚才提到的字节映射,如下图:

图片

(图片出处:https://www.jianshu.com

图中的“001”表示tagk=hots或者tagv=static,提供正反查询。

2)OpenTSDB使用策略说明:

  • 不使用OpenTSDB提供的rest接口,通过client与HBase直连;

  • 工程端禁用compact动作的Thrd线程;

  • 间隔10秒获取Redis缓冲数据批量写入OpenTSDB。

2.2 OpenTSDB在实践中需要关注的点

1)精确性问题


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值