参考来源:
极客时间专栏:赵成的运维体系管理课
极客时间专栏:深入浅出云计算
来自蓝桥云课的岗位介绍,运维工程师:https://www.lanqiao.cn/employment/job-detail/10/
工作内容
负责计算机系统和网络平台服务的运维保障,参与并审核架构设计、安全规范设计等的合理性和可运维性;
负责保障产品或服务 7×24 小时稳定运行,及时响应和处理严重、复杂应用故障,参与突发事件管理;
开展系统问题跟踪,能够运用技术手段和工具进行复杂问题定位;
推动产品或服务整体框架升级和技术版本迭代,参与故障演练设计与实施,持续优化线上技术架构和各类技术的开发维护;
编写运维技术文档,协助完善运维制度和流程,持续优化运维实践。
运维对象的识别和应用场景
标准化的过程实际上就是对运维对象的识别和建模过程。形成统一的对象模型后,各方在统一的认识下展开有效协作,然后针对不同的运维对象,再抽取出它们所对应的运维场景,接下来才是运维场景的自动化实现。
总结一下标准化的套路:
第一步,识别对象;(它是什么东西)
第二步,识别对象属性;(从哪来,能吃吗)
第三步,识别对象关系;(它和其他东西是否可以搭配使用,大饼卷葱还要加酱)
第四步,识别对象场景。
从基础设施层面和应用层面应该识别出哪些运维对象。
第一步,识别实体对象,主要有服务器、网络、IDC、机柜、存储、配件等。
第二步,识别对象的属性,比如服务器就会有 SN 序列号、IP 地址、厂商、硬件配置(如 CPU、内存、硬盘、网卡、PCIE、BIOS)、维保信息等;网络设备如交换机也会有厂商、型号、带宽等信息。
第三步,识别对象之间的关联关系,比如服务器所在的机柜,虚拟机所在的宿主机、机柜所在 IDC 等简单关系;复杂一点就会有核心交换机、汇聚交换机、接入交换机以及机柜和服务器之间的级联关系等,这些相对复杂一些,也就是我们常说的网络拓扑关系。
把以上信息梳理清楚,通过 ER 建模工具进行数据建模,再将以上的信息固化到 DB 中,一个资源层面的信息管理平台就基本成型了。(CMDB)
第四步,还是以服务器为例,我们针对服务器的日常操作有采购、入库、安装、配置、上线、下线、维修等等。另外,可能还会有可视化和查询的场景,如拓扑关系的可视化和动态展示,交换机与服务器之间的级联关系、状态(正常 or 故障)的展示等,这样可以很直观地关注到资源节点的状态。(场景,操作场景)
应用层面的标准化
一个应用应该具备哪些基本的运维属性。
- 应用的