技术运维中的文化、策略与挑战应对
1. 英雄与英雄文化的区别
在构建健康、可持续的文化时,理解英雄和英雄文化的差异至关重要。英雄往往在危机时刻诞生,他们通过执行非凡的任务来挽救局面。然而,英雄文化却鼓励制造灾难,迫使人们成为英雄,这显然是不可取的。
比如,SRE(站点可靠性工程师)常常在夜间事件中牺牲睡眠来解决问题,并因此获得广泛赞誉。尽管我们必须认可他们的英勇行为,但过度美化这种工作会带来危险。真正的英雄在需要时会挺身而出,但他们并不希望任何人,包括自己,陷入那样糟糕的境地。
英雄文化会带来诸多负面影响:
- 阻碍预防性工作 :如果只有在解决紧急情况时工作才会得到认可,人们就会倾向于关注那些看似紧急的工作,从而忽视预防性工作。这就导致了“垃圾火灾驱动式开发”,即只有当问题变得非常严重时,才会得到重视和资源投入。
- 导致个人成为潜在故障点 :当问题只能由少数人解决,而这些人只有在成为挽救局面的关键人物时才能获得关注,他们就可能成为潜在的故障点,同时也会承担沉重的值班负担,最终导致职业倦怠。
要从英雄文化回归到真正认可英雄的状态,需要找到新的工作认可方式。可以借鉴斯多葛派的负面可视化实践,在项目发布后,想象可能导致项目失败的因素,以此来庆祝那些没有发生的问题以及背后为此付出努力的人。同时,要提醒开发者采取措施预防或减少问题的危害,这也是促使团队负责人投入资源解决技术债务的好时机。
2. 打造受欢迎的值班轮换制度
许多组织认为值班是痛苦且必要的恶,但也有像Monzo这样的公司,他们的值班轮换制度非常受欢迎,甚至有人员排队等待
超级会员免费看
订阅专栏 解锁全文
171万+

被折叠的 条评论
为什么被折叠?



