云环境下复杂系统的可靠性保障策略
1 风险类型解析
在系统管理中,存在不同类型的风险,了解它们有助于我们更好地应对挑战。
- 未知已知风险 :这类风险是我们没有意识到,但能够理解的。例如偏见、直觉和无意识的决策。就像我们知道所有公司都有漏洞,但可能会忽略自己部门的问题。在科技领域,可能是某个员工或团队做出未经批准的决策,最终导致灾难性后果。
- 未知未知风险 :这是最难应对的风险,它们完全出乎我们的意料,我们既无法预见也难以理解。比如电影《独立日》中,外星飞船突然来袭就是未知未知风险。在云环境中,新冠疫情导致的供应链连锁中断就属于此类。当硬件具有不可变和弹性特性,软件分布式部署时,遇到新的未知未知风险的可能性更大,而传统的监控工具对此作用有限。
2 可观测性
可观测性源于控制理论,它衡量的是能否通过系统的外部输出推断其内部状态。简单来说,如果能通过观察系统外部来了解内部情况,就具备了可观测性。
2.1 案例分析
以食品行业的 Scrumptious 公司为例,该公司原本是行业顶级品牌,但在新冠疫情冲击下,由于未及时采用数字策略,被竞争对手超越。于是,公司聘请数字机构打造新网站,新网站在前期测试和客户反馈中表现良好,媒体关注也带来了大量流量,运营团队也做了充分准备。然而,网站上线后却出现了问题,部分功能运行缓慢甚至超时,客户难以进行外卖下单。经过排查,发现是部分地区的外部 API 因流量过大响应缓慢,但由于 API 返回成功代码,监控系统显示一切正常。
2.2 解决方案:仪器化
Scrumptio
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



