美联储支付系统宕机、亚马逊云服务宕机、国内B站等互联网服务平台宕机……近年来,全球范围内宕机事件频发,系统稳定性逐渐成为行业关注的焦点。
随着互联网服务深度融入生产生活,软件需要完成多样化的需求,势必需要扩大系统、引入新兴技术架构,信息系统的复杂度迅速提升,这些都导致系统稳定性的挑战愈加艰巨。中国信通院云计算与大数据所马鹏玮认为,信息系统稳定性成为业内焦点已经是必然趋势。
为了帮助各行各业实现更高效的运维,为业务提供全方位的稳定性保障,近日,蚂蚁数科发布了业务智能可观测平台BOS。该产品可赋能云上云下的异构应用获得开箱即用的智能可观测能力,帮助企业提升运维效率3倍以上。在产品发布会上,蚂蚁数科的产品专家马恒洋,对传统IT运维存在的挑战,以及业务智能可观测产品的功能进行了全面解读。
传统IT运维面临的四大挑战
目前各行业都在进行数字化转型,比如建设 Devops、分布式架构、容器化改造等。在享受数字化和云化带来福利后,复杂业务场景和大规模用户量,给今天的运维带来了全新挑战和更大风险压力,主要挑战如下:
一、业务数字化运维缺失:现阶段大多数企业偏向于应用或资源视角运维,缺少从业务视角进行运维、运营的能力。并且企业的业务场景又纷繁复杂,比如面向用户的手机银行、微信银行等,面向内部员工的财务、HR 系统, 以及面向伙伴的开放平台等。这些复杂的业务场景没办法通过传统运维手段将其量化和可视化,更无法将业务与应用系统进行关联映射;
二、链路的覆盖率很低:40% 左右用户体验故障是由客户端自身导致的,60% 左右是客户端调用服务端或中间件引起的,所以原先单点请求调用变成了长链路调用,任何一笔请求可能经过客户端-服务端-中间件等多个异构节点,每次出现故障时,运维人员无法快速感知调用链路上哪个环节出现异常或性能瓶颈;
三、运维产品多且割裂:很多企业都有购买和自建了各种监控产品,比如应用、中间件、基础资源的监控等,这些产品由不同部门使用,同样也建设了日志和链路等运维工具,但故障发生时仍需人工手动的收集信息,导致排障周期很长,比如应用出现故障时,可能是因为运行所在虚拟机异常导致的,但却是两个监控平台各自发出告警信息,无法自动关联;
四、运维数据无统一标准:海量运维数据不能实现数据的多维关联分析,就不能支撑上层可观测和智能运维能力,更无法实现运维数据的分析和挖掘。
上述四类挑战最终导致运维人员每天陷入到海量告警风暴中,但又无法准确发现故障;生产事故频繁出现,但又无好的观测和应急手段;并且每次故障都要拉齐相关的业务方、应用研发和运维等多方协同,效率不仅低下而且协同成本高。
如何应对这些挑战呢ÿ