应用程序操作
应用运维负责线上服务变更、服务状态监控、服务容灾与数据备份,以及日常服务故障处理与应急响应,具体岗位职责如下。
1. 设计评审
在产品研发阶段,参与产品设计评审,站在运维角度提供评审意见,确保服务满足运维接入的高可用性要求。
2.服务管理
负责制定线上业务升级变更及回滚方案并实施。了解自己负责的服务,服务之间的关系,以及服务所依赖的各种资源。能够发现服务中的缺陷,
及时报告并推动解决方案。制定服务稳定性指标和准入标准,不断改进和优化程序和系统的功能和效率,提高运行质量。完善监控内容,提高报警准确率。
当线上服务发生故障时,我们第一时间响应,已知线上故障按流程上报,按预案执行,未知故障则组织相关人员共同排查。
3.资源管理
管理各服务的服务器资产,梳理服务器资源状况、数据中心分布、网络专线及带宽,根据不同服务的需求,合理使用服务器资源。
分配不同配置的服务器,确保服务器资源充分利用。
制定日常服务检查点并持续改进,根据已建立的服务检查点对服务进行定期检查,对检查过程中发现的问题及时进行调查,消除风险隐患。
4.计划管理
确定服务所需的各项监控、系统指标的阈值或关键点,以及情况发生后的响应计划。建立、更新服务响应计划文档,并根据日常故障情况不断补充、完善。
提高计划的完备性。能制定、评审各类计划,定期进行计划演练,确保计划的可行性。
5.数据备份
制定数据备份策略,按规范进行数据备份工作。保证数据备份的可用性和完整性,定期进行数据恢复测试。