多区域部署与多云服务搭建指南
多区域部署相关技术
区域健康检查服务
区域健康检查服务在一个或多个所需服务返回错误时会返回 5xx 状态码。我们会添加一个名为 Api5xxAlarm 的 CloudWatch 警报,用于监控给定区域中 API Gateway 的 5xxError 指标,当一分钟内至少出现一个 5xx 错误时触发警报。你可以根据具体需求调整警报的灵敏度。接着,添加一个名为 ApiHealthCheck 的 Route53 健康检查,该检查依赖于 Api5xxAlarm ,并输出 ApiHealthCheckId 供其他服务使用。最后,将 healthCheckId 与每个区域中每个服务的 Route53 RecordSet 关联,例如 cncb-regional-failover-service 。当警报状态为 Unhealthy 时,Route53 将停止向该区域路由流量,直到状态恢复为 Healthy 。
在实际操作中,我们可以使用 UNHEALTHY 环境变量模拟区域故障,并手动调用服务触发警报。通常,健康检查会由其他服务(如 Pingdom)定期调用,以确保有持续的流量来评估区域的健康状况。为了扩大覆盖范围,我们可以通过从警报中移除 ApiName 维度来检查区域内所有服务的 5xx 指标,但在没有其他流量时仍需依赖对健康检查服务的 ping 操作来确定状态。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



