技术领域中的可靠性、流程与基础设施洞察
1. 我们真的明白为何需要可靠性吗
在当今的技术领域,我们常常认为无法访问的在线服务毫无价值,但事实并非如此。我们每天都会遇到间歇性的计算机故障,用户对于网络服务的小故障也习以为常,比如点击刷新、清除缓存、重启浏览器或机器等,甚至服务本身也有重试机制。
有这样一个例子,几年前和一家知名公司交流时,他们表示不会在可靠性上投入资金,因为他们的客户没有其他选择。他们认为把时间花在可靠性上就无法用于获取收入,不值得。
在上升的市场中,如果公司要在获取新客户和留住现有客户之间做选择,经济激励往往倾向于获取新客户。虽然一个系统不可靠的平台最终可能会失去和获得的客户数量相当,但公司有时间去解决这个问题,而且客户即使面对糟糕的服务也往往不愿意更换。
目前,我们没有一个完全令人满意的方式来讨论可靠性的权衡问题。服务水平目标(SLO)模型虽然旨在明确特定客户群体总体上能容忍的不可靠程度,但实际上并不足够。例如,它无法区分20分钟的几乎完全不可用和两小时的间歇性不可用,而这两种情况从客户体验和创收角度来看是非常不同的。
我们目前的数据有限,难以全面理解在时间和资源有限的情况下,甚至在上升市场中,为何要在可靠性上投入时间。这既令人担忧,也可能是一个停止大量投入时间和金钱的好机会。
2. 构建自我调节流程
自我调节流程是一种微小的制衡循环,在人类系统中很有趣。在技术网络中,很多流程实验的成败取决于发起者的情感或政治影响力。例如,引入结对编程时,往往需要一个自信、有魅力的人来说服不情愿的队友开始尝试。但当这个人离开公司后,结对编程可能就会停止,因为它依赖于个人的力量。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



