skywalking各项指标说明

全局指标

  • all_p99:所有服务响应时间的第99百分位数(p99),即99%的请求响应时间都小于这个值。
  • all_p95:所有服务响应时间的第95百分位数(p95),即95%的请求响应时间都小于这个值。
  • all_p90:所有服务响应时间的第90百分位数(p90),即90%的请求响应时间都小于这个值。
  • all_p75:所有服务响应时间的第75百分位数(p75),即75%的请求响应时间都小于这个值。
  • all_p70:所有服务响应时间的第70百分位数(p70),即70%的请求响应时间都小于这个值。
  • all_heatmap:所有服务响应时间的热点图,用于可视化不同时间段内的服务响应时间分布。

服务指标

  • service_resp_time:服务的平均响应时间,即所有请求的平均处理时间。
  • service_sla:服务的成功率,通常定义为成功请求数除以总请求数。
  • service_cpm:服务每分钟调用次数,即每分钟对服务的调用次数。
  • service_p99:服务响应时间的第99百分位数(p99)。
  • service_p95:服务响应时间的第95百分位数(p95)。
  • service_p90:服务响应时间的第90百分位数(p90)。
  • service_p75:服务响应时间的第75百分位数(p75)。
  • service_p50:服务响应时间的第50百分位数(p50),即中位数。

服务实例指标

  • service_instance_sla:服务实例的成功率。
  • service_instance_resp_time:服务实例的平均响应时间。
  • service_instance_cpm:服务实例每分钟调用次数。

端点指标

  • endpoint_cpm:端点每分钟调用次数。
  • endpoint_avg:端点平均响应时间。
  • endpoint_sla:端点成功率。
  • endpoint_p99:端点响应时间的第99百分位数(p99)。
  • endpoint_p95:端点响应时间的第95百分位数(p95)。
  • endpoint_p90:端点响应时间的第90百分位数(p90)。
  • endpoint_p75:端点响应时间的第75百分位数(p75)。
  • endpoint_p50:端点响应时间的第50百分位数(p50)。

JVM指标

  • instance_jvm_cpu:JVM实例的CPU使用率。
  • instance_jvm_memory_heap:JVM堆内存使用量。
  • instance_jvm_memory_noheap:JVM非堆内存使用量。
  • instance_jvm_memory_heap_max:JVM堆内存最大可用量。
  • instance_jvm_memory_noheap_max:JVM非堆内存最大可用量。
  • instance_jvm_young_gc_time:JVM年轻代垃圾回收时间。
  • instance_jvm_old_gc_time:JVM老年代垃圾回收时间。
  • instance_jvm_young_gc_count:JVM年轻代垃圾回收次数。
  • instance_jvm_old_gc_count:JVM老年代垃圾回收次数。

服务关系指标

  • service_relation_client_cpm:在客户端每分钟检测到的调用次数。
  • service_relation_server_cpm:在服务端每分钟检测到的调用次数。
  • service_relation_client_call_sla:在客户端检测到的成功率。
  • service_relation_server_call_sla:在服务端检测到的成功率。
  • service_relation_client_resp_time:在客户端检测到的平均响应时间。
  • service_relation_server_resp_time:在服务端检测到的平均响应时间。

端点关系指标

  • endpoint_relation_cpm:端点关系每分钟调用次数。
  • endpoint_relation_resp_time:端点关系的平均响应时间。

其他关键指标

CPM:每分钟请求调用的次数

SLA:网站服务可用性(主要是通过请求成功与失败次数来计算),9越多代表全年服务可用时间越长服务更可靠,停机时间越短
1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
从以上看来,全年停机5.26分钟才能做到99.999%,即5个9

CLR:(公共语言运行库)在运行期管理程序的执行:主要包含:内存管理、代码安全验证、代码执行、垃圾收集。CLR有一项服务称为GC(Garbage Collector,垃圾收集),它能为你自动管理内存。GC自动从内存中删除程序不再访问的对象,GC是程序员不再操心许多以前必须执行的任务,比如释放内存和检查内存泄漏。

百分位数:skywalking中有P50,P90,P95这种统计口径,就是百分位数的概念。

### SkyWalking 指标详解 #### 主要性能指标SkyWalking UI 6.5.0版本中,主要监控视角之一是每分钟请求数(CPM),这是衡量服务负载的重要参数[^1]。 #### SLA与服务可靠性 关于网站服务可用性的评估标准(SLA),其计算基于请求的成功率和失败次数。具体而言,99.9%的服务可用性意味着一年内最多允许8.76小时的停机时间;而达到五个九(99.999%)则表示全年仅能容忍约5.26分钟的中断[^2]。 #### 综合服务质量评价-Apdex分数 Service Apdex用于量化用户体验质量,它是一个介于0到1之间的数值,其中接近1表明大多数用户的体验良好。此度量综合考虑了响应时间和成功率等因素来给出总体评分[^3]。 #### 平均响应延迟 平均响应时间为毫秒级(ms), 它反映了服务器处理单个请求所需的时间长度, 是影响Apdex得分的关键因素之一. ```python def calculate_average_response_time(total_responses, total_duration_ms): """ 计算平均响应时间. 参数: total_responses (int): 总请求数量 total_duration_ms (float): 所有请求耗时之和(以毫秒计) 返回: float: 平均响应时间(ms) """ if not total_responses or not isinstance(total_responses, int) or \ not total_duration_ms or not isinstance(total_duration_ms, (int,float)): raise ValueError("Invalid input parameters") avg_rt = round(total_duration_ms / total_responses, 2) return avg_rt ``` #### 请求成功率 Successful Rate显示的是成功完成的比例,通常作为百分比呈现。高成功率意味着较少错误发生并提高了整体系统的稳定性。 #### 负载情况 Services Load展示了不同协议下实际发生的流量强度,比如HTTP/gRPC/RPC类别的CPM以及TCP层面的PPM。这有助于识别潜在瓶颈位置以便优化资源分配策略。 #### 响应时间分布 Service Response Time Percentile提供了特定时间段内的性能概况,例如,在某时刻点上99%以上的查询都能在一秒钟之内得到答复,则说明绝大多数情况下系统表现优异。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jet-W

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值