SkyWalking 使用的核心环节 —— UI 界面深度探索。
SkyWalking 的 Web UI 不仅是“看数据”的窗口,更是问题定位、性能分析、系统治理的重要工具。
下面我们聚焦 Dashboard(仪表盘),进行系统化、实战化、逐层深入的讲解,帮助你真正读懂每个图表背后的意义,并掌握如何利用它监控系统健康状态。
🎛️ SkyWalking UI 深度探索:Dashboard 详解
📌 访问地址:
http://<your-skywalking-ui>:8080
Dashboard 是 SkyWalking 的首页总览面板,提供从“全局 → 服务 → 实例 → 端点”四个层级的性能指标可视化,帮助你快速掌握系统整体运行状况。
一、Dashboard 整体结构
SkyWalking Dashboard 分为以下几个主要区域:
| 区域 | 内容 |
|---|---|
| 🔝 顶部导航栏 | 服务选择、时间范围、刷新频率 |
| 📊 左侧指标区 | 全局吞吐量、响应时间、SLA、实例数等 |
| 🌐 中间拓扑图 | 实时服务调用依赖关系图(可选) |
| 📈 下方趋势图 | 各维度指标的时间序列图表 |
二、核心指标解读(左侧指标区)
1. 📣 Global (全局) 视图
| 指标 | 图标 | 含义 | 关注点 |
|---|---|---|---|
| Throughput (TPS/QPS) | ⚡ | 每分钟请求数(Total Calls Per Minute) | 突增?突降?是否正常波动? |
| Response Time (P99/P95/Avg) | 🕒 | 响应延迟(毫秒),通常显示 P99(99% 请求 ≤ 该值) | 是否超出业务容忍(如 > 1s)? |
| Success Rate (SLA) | ✅ | 请求成功率 = (成功数 / 总数) × 100% | 是否低于阈值(如 < 99.9%)? |
| Instances Count | 🖥️ | 当前注册的服务实例数量 | 是否异常减少(宕机)? |
✅ 实战建议:
- 设置“过去 15 分钟”或“过去 1 小时”观察趋势
- 对比“工作日 vs 周末”、“白天 vs 夜间”的流量模式
2. 🛠️ Service (服务) 视图
当你在顶部选择某个服务后,Dashboard 会切换为该服务的专属视图。
| 指标 | 含义 |
|---|---|
| Service Throughput | 该服务接收到的请求量(入口流量) |
| Service Response Time | 该服务处理请求的平均/P99 延迟 |
| Service SLA | 该服务的成功率(是否抛出异常) |
| Service Apdex | 应用性能指数(Application Performance Index) • 范围 0~1,越接近 1 越好 • 计算公式: (满意请求数 + 容忍请求数/2) / 总请求数• 满意:响应 < 500ms,容忍:500ms ~ 2s(可配置) |
🎯 示例:
若某服务 Apdex = 0.7,说明用户体验一般,可能存在慢接口。
3. 💻 Instance (实例) 视图
点击“Instances”标签页,可查看该服务下所有实例的性能指标。
| 指标 | 含义 |
|---|---|
| Instance Response Time | 每个实例的 P99 响应时间(识别“慢实例”) |
| Instance CPU / Memory Usage | JVM 或操作系统资源使用率(需 Agent 支持) |
| GC Time / GC Count | Full GC 次数和耗时(判断是否存在内存问题) |
| Thread Count | 活跃线程数(过高可能线程阻塞) |
🔍 排查技巧:
- 如果某个实例响应时间明显高于其他实例 → 可能是“热点实例”或“资源瓶颈”
- 高 GC 频率 → 怀疑内存泄漏或堆设置不合理
4. 🌐 Endpoint (端点) 视图
Endpoint 指具体的 API 接口,如 /user/get、/order/create。
| 指标 | 含义 |
|---|---|
| Endpoint Throughput | 每个接口的调用量 |
| Endpoint Response Time | 每个接口的响应延迟(P99 最关键) |
| Endpoint SLA | 每个接口的成功率 |
| Top N Slow Endpoints | 最慢的 N 个接口(自动排序) |
🚨 高危信号:
- 某接口 P99 > 2s 且调用量大 → 影响用户体验
- 某接口错误率突增 → 可能代码发布引入 bug
三、Dashboard 实战操作技巧
| 场景 | 操作方法 |
|---|---|
| 🔍 查看最近 5 分钟的流量突增 | 顶部选择“Last 5 minutes” |
| 🆚 对比两个时间段 | 使用“Compare”功能(Pro 版或部分版本支持) |
| 🔔 发现慢服务 | 点击“Response Time”列排序,找出 P99 最高的服务 |
| 🧩 定位慢接口 | 进入服务详情 → “Endpoints” → 按 P99 排序 |
| 🔄 刷新数据 | 设置自动刷新(如 30s) |
| 📤 导出图表 | 部分图表支持 PNG/CSV 导出(用于报告) |
四、Dashboard + 其他功能联动分析
SkyWalking 的强大在于多模块联动:
| 分析目标 | 联动路径 |
|---|---|
| “为什么这个服务变慢了?” | Dashboard → Top N Slow Services → 点击进入 → 查看调用链(Trace) |
| “这个错误发生在哪个接口?” | Dashboard → 低 SLA 服务 → Endpoints → 找到错误率高的接口 → 查日志 |
| “是不是数据库拖慢了?” | 调用链中查看是否有慢 SQL Span → 关联数据库监控 |
| “某个实例异常?” | Instances 页面 → 发现高延迟实例 → 查 JVM 指标 → Profiling |
五、Dashboard 截图示意(文字版)
┌─────────────────────────────────────────────────────────────┐
│ 🕒 Time: Last 15 mins 🔁 Refresh: 30s │
│ 🏷️ Service: order-service │
└─────────────────────────────────────────────────────────────┘
│ 📊 Global Metrics │
│ Throughput: 1,200 RPM Response Time(P99): 480ms │
│ Success Rate: 99.98% Instances: 3 │
│ │
│ 📈 Throughput Trend ────────────────┐ │
│ │ │ │
│ │█▀▀▀█▀▀▀█▀▀▀█▀▀▀█▀▀▀█▀▀▀█▀▀▀█▀▀▀█│ ← 每分钟请求量 │
│ └──────────────────────────────────┘ │
│ │
│ 📉 Response Time(P99) ──────────────┐ │
│ │ │ │
│ │ ██ │ ← 正常波动 │
│ │ ███ │ │
│ │ ██ │ │
│ └──────────────────────────────────┘ │
│ │
│ 🌐 Topology (optional) │
│ [gateway] -----> [order-service] -----> [payment-service] │
│ │
└─────────────────────────────────────────────────────────────┘
✅ 总结:Dashboard 使用口诀
“一看全局趋势,二查服务排行,三盯实例异常,四挖端点细节”
Dashboard 是你的第一道防线,用于:
- 快速发现异常(流量、延迟、错误)
- 定位问题服务/接口
- 辅助发布后验证(对比发布前后指标)
610

被折叠的 条评论
为什么被折叠?



