提升SRE工作效能与团队协作的多维度策略
1. 寻找失去的时间
在工程领域,时间是最为稀缺的资源。许多人都曾遇到过因原本以为可以推迟六个月解决的问题而导致的重大系统故障。基础设施团队承担着众多职责,如支持产品团队、运行现有系统、处理紧急情况、优化开发者工作流程和进行资源调配等。由于一天中的时间有限,资源也并非无穷无尽,技术债务的偿还、自动化和工具的构建往往会让位于功能开发工作,毕竟产品才是销售的关键。
这种对可靠性工作的优先级降低,使我们难以适应变化,也无法将全新的项目与当前工作有效结合。例如,一些组织在引入CI/CD(持续集成/持续交付)时,由于缺乏时间和精力,往往会过于关注其概念的复杂性和相关风险,而不是逐步推进。这就导致我们常常在半夜被紧急呼叫处理事故,只能反复按照操作手册执行相同的步骤,却没有投入精力进行自动修复。
不平均投入可靠性和功能开发两方面的工作,会使可靠性投资成本随时间推移而增加。新功能带来的复杂性会加重工程师的认知负担,使可靠性工作变得更加困难。问题在我们心中不断放大,最终导致我们不断推迟处理,直到不可避免的系统故障发生。
解决办法之一是每天优先处理一些有助于实现整体可靠性目标的小任务,而不是集中处理一周后就放弃。合理安排日常工作,完成一些短期任务,不仅能让我们的大脑更加放松,还能养成良好的习惯。从业务角度来看,这也有助于进行更频繁的检查和持续改进。
要巩固这种模式,公司层面需要做出承诺,为工程师创造自由解决项目可靠性问题的条件。这种自由体现在时间上,根据不同的工程模式,可以是每天拿出一定比例的时间,或者每隔一段时间(如6周或一个季度)专门安排一周来处理技术债务。之后,工程团队和基础设施团队需要就最需要改进的领域达成共识
超级会员免费看
订阅专栏 解锁全文
720

被折叠的 条评论
为什么被折叠?



