参考来源:
书籍:国之重器-园区网络架构与技术
书籍:网络运维从入门到精通 (作者:樊胜民)
传统的网络运维
传统的网络运维多数以设备为中心,需要登录单个设备进行维护或者通过网管集中管理多个设备,主要依赖设备本身提供的数据进行运维。网管只具备直接呈现数据或进行基础加工后呈现数据的功能,还需要对数据进行人工分析,耗时耗力,同时对操作人员的能力要求高,运维成本高。
例如,在传统运维场景中,客户或者员工投诉网络存在看视频卡顿、无法认证、不能上网等问题,运维人员需要马上登录设备、查看日志,如果问题已经持续了较长时间,还要下载历史日志,**在一堆历史日志中翻阅数据**。即使有网管生成日志,日志也只是一条条数据的集合,管理员不一定能通过查看日志、统计就定位所有问题,还需要进一步分析数据才能确认问题的根因,这就要求运维人员**对系统处理流程**比较熟悉。同时,随着后续园区网络的扩容,海量的分支网络也必须统一管理。**分支网络没有运维人员**,需要总部统一维护,单纯依靠少数人凭经验来维护庞大的网络,对于运维人员来说无疑是一种灾难性的工作。
此外,园区网络无线化程度日渐提高,手机、Pad、打印机、电子白板等大量的无线终端接入园区网络,无线网络的移动性和空口干扰会给园区网络带来新的运维问题。在无线环境中如何界定问题、如何快速恢复、如何保障体验,这些问题是园区的网络运维面临的新挑战。在万物互联的网络模型下,设备数量众多,数据更是海量,而传统的运维方式自动化和智能化能力严重不足,已经无法支撑用户对网络运维的需求。所以,在网络运维领域引入AI技术,利用网络产生的大量数据进行自动分析、智能处理,这是业界应对网络运维挑战的最佳思路。
7.1初识智能运维
智能运维解决方案颠覆了传统聚焦资源状态的监控方式,将AI应用于运维领域,基于已有的运维数据(设备性能指标、终端日志等数据),通过大数据分析、AI算法及更多高级分析技术,将网络中的用户体验数字化,将网络运行状态可视化,辅助管理员及时发现网络问题,预测网络故障,保障网络的良好运行,改善用户体验。
7.1.1以体验为中心的主动运维
传统的网络运维是一种“救火式”运维,都是在出现业务异常、有用户投诉后,才会去查找问题、解决问题
传统的运维方式主要存在如下问题。
·故障被动响应:
传统网络主要依赖设备告警或者用户投诉来发现异常或者故障,一般都是等故障发生了再做处理,网络运维人员需要随时被动响应,如果遇到重大节日或重要活动,更是需要24小时严阵以待
·故障恢复慢:
传统运维模式下出现业务异常时,运维人员一般第一时间查看网络拓扑,通过命令行登录设备定位故障。60%以上的故障还需要到达故障现场进行排障。针对已经消失的故障,需要等待故障再次出现或者尝试对故障进行复现。同时,无线化进一步加剧了故障修复的难度,因为无线环境的复杂导致90%以上的问题需要现场定位。然而面向生产和客户服务的数字化业务越来越多,客户对故障恢复时间的容忍度也远远低于普通的办公业务,比如医疗行业的自动分药系统、商业场所的无人支付系统、物流仓储