简介:本文介绍由南开大学、清华大学、腾讯、国家超级计算天津中心共同合作的论文:基于异构图的大规模微服务系统性能问题诊断。该论文已被IEEE Transactions on Services Computing期刊录用
论文标题:Diagnosing Performance Issues for Large-Scale Microservice Systems with Heterogeneous Graph
作者:陶磊,卢香琳,张圣林,栾佳琪,李英可,李明杰,李则言,于庆阳,谢虎成,徐锐杰,胡宸源,杨灿群,裴丹
微服务系统的可用性对业务运营和企业声誉至关重要。然而,微服务系统的动态性和复杂性给大规模微服务系统的性能问题诊断带来了重大挑战。在调查了腾讯公司数百个真实的性能问题案例后,文章发现,以前的故障排除方法未能准确定位根本原因,因为它们忽略了因果关系与调用关系之间的不一致性。因此,文章提出了一种新方法——MicroDig,用于诊断大规模微服务系统的性能问题。具体来说,MicroDig 构建了一个异构传播图,以捕捉调用与微服务之间的因果关系。然后,它进行面向异构性的随机游走(Heterogeneity-Oriented Random Walk,HORW),以确定导致问题的微服务。
文章在三个数据集上评估了 MicroDig 的性能,这些数据集包括来自腾讯的60个真实性能问题案例、来自广泛使用的开源微服务系统中收集的80个手动注入的问题以及来自一家全球顶级商业银行使用的电子商务系统中的128个性能问题。MicroDig 在这三个数据集上的Top-3准确率分别达到了94.1%、85.5%和93.8%,显著优于六种流行的基准方法。