SRE体系及稳定性建设
SRE
SRE概念
SRE在国内现在也叫应用运维,是面向用户稳定性的,也就是说对用户的服务质量负责,这也给了SRE更高的要求,要有全局视角,要对系统的全生命周期进行管理,把质量和成本工作做到前面,需要一系列的流程.制度.规范和一系列的工具提高管理、质量、自动化效率。
SRE以用户稳定性为目标,业务对资源的规划管理周转效率、持续集成上线效率、质量管理效率等。
SRE的工作职责
- 1、保障线上服务的稳定性
- 2、建设工具/平台/基础设施 提升效率
- 3、用技术手段来控制、优化服务的运行成本
大型互联网的5个生命周期中SRE的职责
代码编写
SRE的主要工作是搭建和维护代码管理系统,为CI/CD做好准备,目前最常用的就是GitLab了。
资源规划
- 1、方案评估
根据需求规划系统的基础资源,包括机型(或容器规格)、机房、资源数量、存储、4/7层接入方案、域名证书以及是否用CDN等。 - 2、资源申请
将评估后的资源各自走审批流程。 - 3、资源管理
对业务使用的海量主机、容器、域名、证书、LB、CDN、存储、网络、专线等资源进行管理,体量上来后一定要建设CMDB用系统管,各类信息做到可快速检索,一般大厂存储、CDN、网络、专线都有专门团队负责,SRE只要管好自己业务的使用即可,强调一点,资源一定要制定一套科学的命名规则。 - 4、权限管理
大型系统人多、环境复杂,SRE需要对权限做详细的规划,制定SRE、开发序列对应每种资源新手和老工程师的权限规则,理想情况开发只要管好代码即可,任何prod环境操作都只能由SRE处理,开发是不允许有root权限的,开发和测试环境视情况处理,所有操作做好审计方案。 - 5、资源操作