摘 要:随着X86分布式技术应用,服务器数量越来越多,网络拓扑结构越来越复杂,运维越来越辛苦,风险越来越高。智能化运维AIOPS将AI技术应用在运维场景,是DevOps的运维部分,是“开发运维一体化云中心”的重要基础设施之一,其最大的价值在于缩短故障恢复时间,提高IT服务连续性。
本文描述一个运维及在这个场景下对AI的需求,目标是尝试将AI引入运维过程,提高运维效率、缩短故障恢复时间。
关键字:机器学习;DEVOPS、AIOPS、流量预测
随着X86分布式架构应用,服务器规模越来越大,一个交易经过的服务数量,一个请求的可能路径以笛卡尔乘积方式增加,一个节点异常往往会引起网络上多个服务器告警。这给故障定位、故障应急处理、系统瓶颈预测带来巨大的挑战。针对这种情况业内把人工智能引入到分布式系统运维管理中,以期通过人工智能提高运维效率,缩短故障恢复时间。业内称加入人工智能的运维为AIOPS。根据 Gartner Report,智能运维相关的技术产业处于上升期。2016 年,AIOPS 的部署率低于 5%,Gartner 预计 2019 年 AIOPS 的全球部署率可以达到 25%。随着人工智能的成熟,运维工程师将逐渐转型为大数据工程师,主要负责开发数据采集程序以及自动化执行脚本,负责搭建大数据基础架构,同时高效实现基于机器学习的算法。
AIOPS代表结合人工智能的IT运维。它是指利用机器学习从各种IT运营工具和设备收集的大数据并训练模型,实时自动发现问题、分析问题、响应问题的多层技术平台。Gartner通过图1解释了AIOPS平台如何工作。AIOPS有两个主要组件:大数据和机器学习。为了将大数据平台中的参与数据(通常在票据、事件和事件记录中找到