15、云环境下复杂系统的可靠性保障策略

云环境下复杂系统的可靠性保障策略

1 风险类型解析

在系统管理中,存在不同类型的风险,了解它们有助于我们更好地应对挑战。
- 未知已知风险 :这类风险是我们没有意识到,但能够理解的。例如偏见、直觉和无意识的决策。就像我们知道所有公司都有漏洞,但可能会忽略自己部门的问题。在科技领域,可能是某个员工或团队做出未经批准的决策,最终导致灾难性后果。
- 未知未知风险 :这是最难应对的风险,它们完全出乎我们的意料,我们既无法预见也难以理解。比如电影《独立日》中,外星飞船突然来袭就是未知未知风险。在云环境中,新冠疫情导致的供应链连锁中断就属于此类。当硬件具有不可变和弹性特性,软件分布式部署时,遇到新的未知未知风险的可能性更大,而传统的监控工具对此作用有限。

2 可观测性

可观测性源于控制理论,它衡量的是能否通过系统的外部输出推断其内部状态。简单来说,如果能通过观察系统外部来了解内部情况,就具备了可观测性。

2.1 案例分析

以食品行业的 Scrumptious 公司为例,该公司原本是行业顶级品牌,但在新冠疫情冲击下,由于未及时采用数字策略,被竞争对手超越。于是,公司聘请数字机构打造新网站,新网站在前期测试和客户反馈中表现良好,媒体关注也带来了大量流量,运营团队也做了充分准备。然而,网站上线后却出现了问题,部分功能运行缓慢甚至超时,客户难以进行外卖下单。经过排查,发现是部分地区的外部 API 因流量过大响应缓慢,但由于 API 返回成功代码,监控系统显示一切正常。

2.2 解决方案:仪器化

Scrumptio

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值