阿里架构师的架构设计——详解高可用架构设计

本文探讨了高可用架构设计的重要性,遵循海恩法则和墨菲定律,介绍了从可用性度量、架构分层到各层级服务的高可用设计,包括接入层、应用层、服务层的详细策略,以及数据库架构、服务管理和监控告警机制。同时强调了不同角色(架构师、运维、研发)的职责和容灾备份方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

推荐阅读


前言:海恩法则和墨菲定律

海恩法则

  • 事故的发生是量的积累的结果。
  • 再好的技术、再完美的规章 , 在实际操作层面也无法取代人自身的素质和责任心 。

墨菲定律

  • 任何事情都没有表面看起来那么简单 。
  • 所有事情的发展都会比你预计的时间长 。
  • 会出错的事总会出错。
  • 如果你担心某种情况发生,那么它更有可能发生 。

警示我们,在互联网公司里,对生产环境发生的任何怪异现象和问题 都不要轻易忽视,对于其背后的原因一定要彻查。同样,海恩法则也强调任何严重事故的背后 都是多次小问题的积累,积累到一定的量级后会导致质变,严重的问题就会浮出水面 。 那么,我们需要对线上服务产生的任何征兆,哪怕是一个小问题,也要刨根问底: 这就需要我们有技术攻关的能力,对任何现象都要秉着以下原则: 为什么发生? 发生了怎么应对? 怎么恢复? 怎么避免? 对问题要彻查,不能因为问题的现象不明显而忽略 。

一、可用性度量和考核

业务可用性

所谓业务可用性(availability)也即系统正常运行时间的百分比,架构组最主要的 KPI (Key Performance Indicators ,关键业绩指标)。对于我们提供的服务(web,api)来说,现在业界更倾向用 N 个9 来量化可用性, 最常说的就是类似 “4个9(也就是99.99%)” 的可用性。

故障时间=故障修复时间点-故障发现(报告)时间点

服务年度可用时间%=(1-故障时间/年度时间)× 100%。

故障的度量与考核

对管理者而言:可用性是产品的整体考核指标。 每个工程师而言:使用故障分来考核:

服务级别可用性

如果是一个分布式架构设计,系统由很多微服务组成,所有的服务可用性不可能都是统一的标准。

为了提高我们服务可用性,我们需要对服务进行分类管理并明确每个服务级别的可用性要求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值