海空联动立体化监测：提升IT运维效率-优快云博客

本文链接：https://blog.youkuaiyun.com/dclingcloud/article/details/89308297

本文介绍了海空联动立体化监测方案如何围绕核心业务进行全方位监测，以提高IT运维效率。通过实例展示了如何利用此方案快速定位并解决业务性能问题，例如在支付宝和微信结算业务中遇到的扫描支付响应缓慢问题，通过业务建模、会话跟踪和DNS分析，有效解决了因源端口复用导致的延迟问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

版权声明：本文为神州灵云作者的原创文章，未经神州灵云允许不得转载。

本文作者：Tony

对于核心业务保障是所有IT运维的重中之重，各种监测手段都会加之其上，编织起一张监测的大网，力求不遗漏任何蛛丝马迹；但是来自主机、网络、数据库和应用等层次的信息视角相对孤立，缺少业务流程和用户使用体验层次的有效关联，难以建立统一监测立体覆盖，容易造成IT运维的盲点和漏洞。

通常用OBASHI 方法论评估核心业务运作的六个“层次”，其中前两个层次表示核心业务运作的方式，后四个层次表示支持这些运作的 IT 构架：

Ownership（利益相关者）
Business Process（业务流程）
Application（应用程序）
System（操作系统）
Hardware（硬件）
Infrastructure（基础架构）

1-六层架构.jpg

对于承载核心业务的IT构架，按照OBASHI方法论进行监测和运维保障，已经普遍实现：机房实时监控、服务器及各类设备监控、基础网管监控，中间件及数据库监控、流程及CMDB的建设；但是缺乏与上两层次的有效联动，对于业务流程、用户体验、代码性能的监控普遍缺失，一旦出现业务性能问题，难以从上往下快速排查，定位故障原因费时费力。

神州灵云通过海空联动立体化监测方案，紧紧围绕核心业务建模分析，从顶层开始建立对业务运行过程的全面监测，直观反映用户使用感受，让业务性能问题从发现到定位及最终解决都变得事半功倍，极大提升IT运维的效率；接着我们通过实例来展现立体化监测的威力

<实例>
近年来随着互联网金融业务快速发展，支付宝和微信结算作为核心组成部分是运维重点，尤其商铺的扫描收单业务直接影响到终端客户使用感受；但是最近一段时间，每天都有客户反映扫描支付回应缓慢，主要集中在微信收单上，需要定位问题尽快排除故障现象。

首先我们通过核心业务建模，对扫码收单业务进行业务健康度分析，监测正常、容忍、失望、错误和失败业务数量的占比:
2-占比.jpg

找出失望业务，对单笔交易跟踪分析，确定失望的原因:
3-单笔.jpg

这笔失望的业务，原因是响应时间达到10663ms:
4-响应时间.jpg

检索全量会话数据，通过业务会话的唯一标识BILLCODE找到这笔交易，确认在后端服务器之间数据交互环节确实存在极慢响应时间:
5-极慢分析.jpg

查看该业务的逻辑调用关系图，发现每笔业务处理过程中后端服务器都会通过互联网专线调用一次前端Api.weixin.qq.com和Tpay.95516.com的数据；分析调用微信和银联数据的交互过程，发现从请求到获得数据，响应时间分别是289ms和253ms，排除网络故障或者对方因素导致调用数据缓慢:
6-调用.jpg