3工具建设辅助可用性能力的提升
以往讲运维工具体系,主要会从“监、管、控”三方面建设,随着规模不断增大,复杂度不断提升,从运维数据平台也尤为重要,详细的工具体系建设将在后续梳理。
本节先从被动式的事件集中管理场景与主动式的可用性分析场景的建设来看看提升运维的可用性能力:
1)事件集中管理场景:
前面提到的” 海恩法则“提到一个重大的业务可用性问题的出现,很可能己发生了多次事件,是一个量变的过程,所以,事件的有效管理在应用可用性能力建设中起到一个很重要的作用。
一个企业的业务系统要运行良好,需要保证一系列的软硬件设施的稳定运行,比如机房环控、网络设施、服务器设施、系统软件、数据库、中间件、应用服务,以及交易与客户体验层面等等因素都与稳定息息相关。在现实工作中,由于以下两个因素影响导致一个企业监控工具很多:
运维涉及的领域很多,没有哪一个监控工具能够做到一篮子解决方案,往往硬件厂商擅长硬件监控,软件厂商擅长软件监控,DBA擅长数据库监控,业务运维擅长业务监控、性能分析团队擅长性能体验监控等。
同类的监控也可能存在多套监控工具,一方面是由于同类监控的工具之间的功能也有优缺点差异,另一方面也有使用者的一些历史原因因素等;
基于上面监控工具多的问题,建立建立一个事件集中管理的场景工具,该工具具备以下能力:
事件汇总:数据层面汇总不同层次、不同专业条线、不同类型事件是监控集中管理的基础。可视化层面,提供统一的事件处理管理,提供多维的角色,整合应急操作工具等事件丰富的能力。
事件收敛:前面提到同一个故障会触发多类指标的告警,同一个指标在故障未解除前也会重复产生大量的告警事件,如果将全部事件都展示出来,那对于监控处理人员将是灾难性的,所以需要进行事件收敛。
事件分级:对于不同的事件需要有适当层次的事件分级,事件升级的策略。事件分级是将事件当前紧急程度进行标识显示,事件升级是对于低级的事件当达到一定的程度

最低0.47元/天 解锁文章
5691

被折叠的 条评论
为什么被折叠?



