站点可靠性工程(SRE)相关经验与策略分享
1. SRE 培训的重要性及策略
在站点可靠性工程(SRE)领域,有大量知识需要学习。无论是渴望成为 SRE,还是要适应新服务,都会感觉信息如洪流般涌来。对于成人学习者,尤其是新加入团队的人来说,传授技术知识并非培训的首要考虑因素。更重要的是建立信心,克服冒名顶替综合症。此外,培训还能推动或延续期望的组织文化,是对组织和人员的一种投资。
可以从设定 ASSBAT(a student should be able to)开始培训策略。ASSBAT 是聚焦于期望驱动和观察的行为的学习目标。例如:
- 使用 $tool 识别作业使用的内存量。
- 解读 $monitoring_tool 中的图表,以确定 $foo 服务的健康状况。
- 在五分钟内使用 $drain_tool 将流量从集群中转移。
通过使用这类 ASSBATs,可以日常观察和衡量培训的应用效果。从 ASSBATs 入手,就拥有了良好培训策略的开端,而非仅凭希望。
同时,SRE 的基本原则也可应用于培训项目本身。可以按照以下步骤优化培训项目:
1. 监控培训项目绩效 :通过跟踪出勤情况和收集调查反馈来监控培训项目的表现。定义培训项目的服务水平目标(SLOs)并进行沟通。
2. 解决监控中出现的问题 :若调查反馈中某些问题学生评分较低,需进行调查和跟进,确定是课程设置、后勤安排还是讲师的问题。
3. 撰写事后分析报告 :当出现影响学生体验的问题时,撰写事后分析报告,以便从失败中无责学习,确定
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



