架构设计的核心解法与权衡艺术（三）：高可用设计的核心思想 —— 冗余与故障转移

原创已于 2025-10-11 10:18:13 修改 · 1.2k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#系统架构

于 2025-10-11 10:17:10 首次发布

架构思维专栏收录该内容

22 篇文章

订阅专栏

在数字世界中，“宕机”是所有系统的噩梦，尤其对于电商平台而言，交易系统宕机一分钟，可能意味着数以百万计的交易额损失；对于金融服务而言，支付网关宕机一秒钟，都可能动摇用户信任的根基。因此，从“功能可用”迈向“持续可用”乃至“永远可用”，是架构师从优秀走向卓越的必经之路。

引言：从“功能可用”到“永远可用”

前面的文章，我们学习了如何通过解耦来赋予系统灵活性，如何通过立体式防御来应对高并发的冲击。今天，我们要挑战一个更宏大、也更严苛的目标：如何构建一个“永远可用”的系统？答案就是高可用设计。

这个“永远可用”的追求，在工程领域有一个更精确的度量标准，那就是服务等级协议（SLA, Service-Level Agreement）。我们常听到的“3个9”、“4个9”的可用性，就是SLA指标：

99.9% (3个9)：意味着一年内，系统最多允许的不可用时间是 8.76小时。
99.99% (4个9)：一年内，最多允许的不可用时间是 52.6分钟。
99.999% (5个9)：一年内，最多允许的不可用时间仅为 5.26分钟。

从3个9到5个9，每一个“9”的增加，背后都是架构复杂度和成本的指数级增长。那么，我们如何通过架构设计，来无限逼近那100%的终极目标呢？

答案并非某种单一的“银弹”，而是一套建立在“承认失败（Embrace Failure）”哲学之上的系统性工程。高可用设计的核心，不是假设系统不会失败，恰恰相反，是假设任何组件、任何服务器、任何机房，随时都可能失败，并在此基础上，构建一套能够自动应对这些失败的、具备“自愈”能力的体系。

这套体系的构建，离不开两大最根本的基石：冗余和故障自动转移。今天，我们将深入剖析这两大基石，并以此为核心，将微服务治理、异步化、数据高可用方案等一系列技术实践有机地结合起来，最终为大家呈现一套完整、健壮的高可用架构设计方法。

一、第一基石：冗余 —— 消除“单点”，构建“不死”之身

高可用设计的起点，是识别并消灭系统中的单点故障。单点故障，是指系统中一旦某个组件失效，就会导致整个系统无法工作的“命门”。

冗余，就是消除单点最直接、最有效的方法。其思想简单而强大：“如果一个东西可能会坏，那就为它准备一个或多个备份。”

一个成熟的冗余设计，通常是分层次、立体化构建的。

1. 服务器级冗余：集群化

这是最基础、也是最常见的冗余形式。我们不再依赖单一的、强大的“超级服务器”，而是将应用部署在一个由多台普通服务器组成的集群上。

工作模式：在集群的前端，通常会有一个负载均衡器。用户的请求首先到达负载均衡器，然后由它将请求分发给集群中某一台“健康”的服务器进行处理。
效果：集群中任何一台服务器宕机，负载均衡器会立刻发现，并停止向它分发流量。对于用户而言，整个过程是无感的，他们的请求只是被另一台服务器处理了而已。通过集群化，我们将单台服务器的“生死”，与整个系统的“生死”解耦了。

2. 机柜级/交换机级冗余

在一个数据中心内部，服务器通常被放置在不同的机柜中，连接在不同的交换机下。为了防止整个机柜断电或交换机故障，我们在部署集群时，应有意识地将服务器分散到不同的机柜和交换机上。这是一种更细粒度的冗余策略。

3. 数据中心级冗余：多可用区/多地域部署

服务器和机柜级的冗余，可以抵御单机或小范围的故障。但如果整个数据中心因为火灾、地震、光缆被挖断而“团灭”了呢？这就需要最高级别的冗余——数据中心级冗余。

多可用区：云服务商通常会在一个城市（地域/Region）内，建立多个物理上隔离、但网络高速互联的数据中心，每一个都称为一个“可用区”。我们的应用集群，可以横跨多个AZ进行部署。例如，在AZ-A部署3台服务器，在AZ-B也部署3台。这样，即使AZ-A整个不可用，AZ-B的3台服务器依然可以继续提供服务。
多地域：为了应对城市级别的灾难，我们可以将应用部署在相隔上千公里的不同地域（例如，北京和广州）。这通常用于实现最高级别的“异地容灾”。

通过从服务器、机柜到数据中心的多层次冗余设计，我们为系统构建了层层递进的“护城河”，使其具备了抵御从小到大各种规模故障的“不死之身”。

二、第二基石：故障自动转移 —— 赋予系统“自愈”的反射神经

冗余为我们提供了“备份”，但备份本身是“死”的。如果主节点坏了，我们不能指望运维人员在凌晨四点被电话叫醒，然后手动把流量切到备份节点上。这个过程必须是自动的、瞬间完成且无需人工干预的。

故障自动转移，就是这套赋予系统“自愈”能力的“反射神经系统”。它主要包含两个核心环节：

1. 故障检测：系统的“心跳”

系统如何知道一个节点“死”了？答案是健康检查，也常被称为“心跳检测”。

工作模式：
- 负载均衡器会以固定的频率（例如每5秒），向其后端的每一台服务器发送一个“探测”请求。
- 这个请求可以是一个简单的TCP连接，也可以是一个能真实反映应用健康状况的HTTP API（例如，查询应用的/health接口）。
- 如果服务器在规定的超时时间内，返回了预期的健康响应（如HTTP 200），则认为它是“健康的”。
- 如果连续N次探测都失败或超时，负载均衡器就会果断地将这台服务器标记为“不健康”。

2. 流量转移：果断的“放弃”

一旦一个节点被标记为“不健康”，故障转移的第二步就会被触发：

负载均衡器会立即将该节点从其“可用服务器列表”中移除。
后续所有新的用户请求，都将不再被分发到这个故障节点上，而是由集群中其他健康的节点来处理。

这个“检测-标记-移除”的过程，通常可以在秒级完成。正是这套快速、自动的“神经反射”，确保了即使部分组件发生故障，整个系统的服务也不会中断。

三、构建完整的高可用体系：不止于“两大基石”

仅仅依靠服务器集群和负载均衡器，还不足以构建一个真正健壮的高可用系统，尤其是在复杂的微服务架构下。一个完整的高可用体系，是将“冗余”与“故障转移”的思想，贯彻到系统每一个角落的系统性工程。

1. 数据层的高可用

应用服务器是“无状态”的，可以随意宕机和替换。但存储着核心数据的数据库，是“有状态”的，其高可用设计要复杂得多。

主从复制与自动倒换：最经典的数据库高可用方案。写入操作在主库，数据会实时地被复制到一个或多个从库。同时，会有一个独立的“哨兵”或“仲裁”机制，持续监控主库的健康。一旦主库宕机，“哨兵”会自动在所有从库中，选举出一个新的主库，并通知应用层切换连接。
分布式数据库：对于需要极致可用性和扩展性的场景，可以采用原生支持分布式、多活的数据库（如OceanBase、TiDB, Cassandra等）。这类数据库没有“主从”之分，数据被分散存储在多个节点上，任何一个节点宕机，都不会影响整个集群的读写。

2. 异步化与消息队列的高可用

我们在之前的解耦的文章中讲到，异步化是解耦的利器，它同样也是提升系统可用性的“隔离带”。

故障隔离：通过消息队列（MQ），我们将服务间的强依赖调用，变为了弱依赖的事件通知。如果下游的“用户积分服务”集群整体宕机，上游的“订单服务”完全不受影响，消息只会在MQ中积压，待积分服务恢复后再进行处理。
MQ自身的高可用：当然，MQ本身不能成为新的单点。现代的消息队列（如Kafka, RocketMQ）都支持集群化部署，通过多副本机制，确保了自身的高可用。

3. 微服务治理中的高可用实践

服务发现与健康检查：在微服务架构中，服务注册中心（如Nacos）扮演了“微服务世界的负载均衡器”。每个服务实例在启动时都会注册自己的地址，并定时发送“心跳”。如果一个实例心跳停止，注册中心会将其摘除，服务调用方将不会再请求到这个故障实例。
熔断与降级：这是防止“连锁雪崩”的关键。如在《高并发设计的通用范式 —— 缓存、分流与降级》中所讲述的，当服务A调用服务B失败率过高时，熔断器会自动“跳闸”，快速失败，避免服务A被拖垮。降级则是在大促等极端情况下，主动放弃次要功能，保障核心链路的可用性。

4. 弹性的基础设施与全面的监控预警

弹性伸缩：高可用不仅要应对“故障”，也要应对“流量洪峰”。通过配置弹性伸缩策略，系统可以根据CPU、内存利用率等指标，自动增加或减少服务器实例，使系统处理能力始终与流量负载相匹配，避免因过载而宕机。
监控预警体系：这是一切高可用措施的“眼睛”和“耳朵”。没有有效的监控，我们就无法第一时间知晓故障的发生。一个全面的监控系统，需要覆盖从基础设施（CPU, 内存, 网络）、中间件（MQ, Redis）到应用层（QPS, RT, 错误率）的每一个环节，并配置科学的、分级的告警机制，确保问题在演变成灾难前，就能被发现和处理。

四、案例实战：构建一个“永不掉线”的支付网关

现在，让我们综合运用今天所学，来设计一个达到“4个9”以上可用性的核心支付网关。

业务要求：作为所有交易的入口，支付网关必须在任何单点故障（单机、单机房）下，都能持续提供服务。
高可用架构设计：
- 跨可用区部署：
  - 在集群的最前端，我们使用云厂商提供的全局负载均衡器，它能感知多AZ的部署，并将流量智能地分发到两个AZ的服务器上。
  - 我们将支付网关应用（无状态），部署在一个横跨上海AZ-A和上海AZ-B两个可用区的服务器集群上，每个AZ部署4台服务器，共8台。
- HA数据库：
  - 支付流水的核心数据库，采用“一主两从”的跨AZ部署模式。主库（Master）部署在AZ-A，一个从库（Slave-1）也部署在AZ-A（用于读写分离），另一个从库（Slave-2）部署在AZ-B（用于灾备）。
  - 部署一套独立的高可用管理组件，持续对主库进行心跳检测。
- 全面的健康检查：负载均衡器配置了精细的健康检查策略，每3秒探测一次网关服务器的/health接口，连续2次失败就将其标记为不健康。
- 异步化解耦：支付成功后，网关服务不直接同步调用下游的会计、通知、风控等服务，而是向一个同样是跨AZ部署的高可用Kafka集群发送一条PaymentSucceeded事件。
故障场景模拟与自动恢复：
- 场景一：AZ-A中的一台网关服务器宕机
  - 检测：负载均衡器在6秒内（2次探测），发现该服务器无响应。
  - 用户影响：0。
  - 自愈：Auto Scaling组发现集群实例数少于期望值，会自动拉起一台新的服务器，并加入集群。
  - 转移：LB立刻将该服务器从可用列表中移除。后续流量被无缝地分发到剩余的7台服务器上。
- 场景二：整个AZ-A因光缆故障，完全不可访问
  - 应用层转移：全局负载均衡器检测到所有发往AZ-A的探测请求都失败了，于是将100%的流量自动路由到AZ-B的4台服务器上。
  - 数据层转移：数据库的高可用组件检测到主库不可达，经过选举和仲裁，在30秒内，自动将AZ-B的Slave-2提升为新的主库。应用层通过高可用连接代理，自动重连到新的主库上。
  - 用户影响：在数据库主从切换的约30秒内，可能会有极少量的写操作失败（需要客户端有重试机制）。读操作不受影响。切换完成后，服务完全恢复。相比于整个服务长时间中断，这是一个完全可以接受的、优雅的降级。