一、运维可用性的思考
业务的不断演进,系统的数据量不断扩大,技术栈越来越复杂,系统模块越来越多,造成信息系统中断的风险场景越来越多,中断事件的频率和种类持续增长,且有相当一部份事件会造成业务中断,可用性问题越来越严峻。
一个严重的业务可用性问题通常是多个层面上的可用性保障均失效的结果,比如:架构的高可用能力、监控能力、自动化工具能力、应急能力等,所以说运维组织的事件管理能力特别重要,应该本着“不浪费故障”的理念去深挖故障背后的问题,不断完善每个环节的不足(当然,这里不提倡追责的方式分析故障)。
可以用“海恩法则”来进一步解释可用性问题由量变向质变转变的过程:
海恩法则:一起重大的飞行安全事故背后都会有29个事故征兆,每个征兆背后又有300个事故苗头,每个苗头背后还有1000个事故隐患。由此可见,对隐患、苗头、征兆的忽略,是导致意想不到的安全事故发生的罪魁祸首。——百度百科
海恩法则强调两点:一是事故的发生是量的积累的结果;二是人自身的素质和责任心。将法则运用到运维领域,我觉得可以从技术手段与管理手段进行可用性能力建设。
其中技术手段主要是运维把控技术架构的高可用的标准化策略的生产环境准入门槛、运用数据分析及专家意见进行信息系统架构的持续优化、运维工具建设提高问题的预测或加快可用性的恢复;管理手段则主要从演练与应急方面分解。
二、运维可用性标准方法论
在梳理可用性能力建设前,我们先看看关于可用性的一些基本概念与方法论。
在方法论的研究上,我暂时还没看到一个完全针对运维的信息系统可用性的建设方法论,所以暂以BCM(业务连续性管理),以及Google src中提到的可用性的理解。
这些方法论有助于培养一个体系化的知识体系,串起运维可用性能力的知识碎片。
1可用性概念
可用性是运维组织最重要的KPI指标,在国标的可信性与服务质量电工术语中对它的解释是:在要求的外部资源得到保证的前提下,产品在规定的条件下和规定的时刻或时间区间内处于可执行规定功能状

最低0.47元/天 解锁文章
5691

被折叠的 条评论
为什么被折叠?



