2、技术领域中的可靠性、流程与基础设施洞察

onion

于 2025-09-19 10:22:52 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏： SRE智慧：97个关键洞见文章标签：可靠性 SLI SLO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/onion/article/details/152713706

SRE智慧：97个关键洞见专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

技术领域中的可靠性、流程与基础设施洞察

1. 我们真的明白为何需要可靠性吗

在当今的技术领域，我们常常认为无法访问的在线服务毫无价值，但事实并非如此。我们每天都会遇到间歇性的计算机故障，用户对于网络服务的小故障也习以为常，比如点击刷新、清除缓存、重启浏览器或机器等，甚至服务本身也有重试机制。

有这样一个例子，几年前和一家知名公司交流时，他们表示不会在可靠性上投入资金，因为他们的客户没有其他选择。他们认为把时间花在可靠性上就无法用于获取收入，不值得。

在上升的市场中，如果公司要在获取新客户和留住现有客户之间做选择，经济激励往往倾向于获取新客户。虽然一个系统不可靠的平台最终可能会失去和获得的客户数量相当，但公司有时间去解决这个问题，而且客户即使面对糟糕的服务也往往不愿意更换。

目前，我们没有一个完全令人满意的方式来讨论可靠性的权衡问题。服务水平目标（SLO）模型虽然旨在明确特定客户群体总体上能容忍的不可靠程度，但实际上并不足够。例如，它无法区分20分钟的几乎完全不可用和两小时的间歇性不可用，而这两种情况从客户体验和创收角度来看是非常不同的。

我们目前的数据有限，难以全面理解在时间和资源有限的情况下，甚至在上升市场中，为何要在可靠性上投入时间。这既令人担忧，也可能是一个停止大量投入时间和金钱的好机会。

2. 构建自我调节流程

自我调节流程是一种微小的制衡循环，在人类系统中很有趣。在技术网络中，很多流程实验的成败取决于发起者的情感或政治影响力。例如，引入结对编程时，往往需要一个自信、有魅力的人来说服不情愿的队友开始尝试。但当这个人离开公司后，结对编程可能就会停止，因为它依赖于个人的力量。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。