构建永不停止的分布式系统:原理与策略
1. 引言
在分布式系统的构建中,故障是不可避免的。为了打造高可用、容错、有弹性且可靠的系统,我们需要深入了解各种应对策略。本文将围绕分布式系统中的故障场景展开,探讨数据复制、重试策略以及不同的请求处理方式。
2. 容错系统基础
要构建容错系统,至少需要两台计算机。Erlang 内置的分布式特性、无共享内存和异步消息传递为数据在多台计算机间复制提供了基础。即使一台计算机崩溃,另一台也能接管工作。而且,单节点系统的错误处理、故障隔离和自愈技术在多节点系统中同样适用,这使得构建容错系统更加简单和可预测。
3. 系统关键特性
3.1 可用性
可用性指系统在特定时间段内的正常运行时间。高可用性意味着系统的停机时间非常短,包括软件维护和升级。虽然有人声称实现了九个九(99.9999999%)的可用性,但这很难长期维持。使用 Erlang/OTP 通常能实现 99.999% 的可用性,即每年停机时间仅略超 5 分钟。高可用性源于系统无单点故障、具备容错性、弹性和可靠性,即使部分故障仍能提供一定程度的服务。
3.2 容错性
容错性是系统在故障时可预测运行的能力。故障可能由软件、网络、硬件问题或节点崩溃引起。系统可通过寻找替代节点确保请求完成,或向调用者返回错误。例如,客户端向运行 Web 服务器的前端节点发送请求,请求被解析后转发到逻辑节点。若逻辑节点或其内部进程崩溃,前端节点可能检测到崩溃并收到错误,也可能触发内部超时,然后将错误返回给客户端。但判断逻辑节点是真的故障、网络问题还是响应过慢导致超时是个难题,需要通过唯一标识符、幂等性和重试尝
超级会员免费看
订阅专栏 解锁全文
542

被折叠的 条评论
为什么被折叠?



