21、遥测数据分析后端选项与问题诊断

最新推荐文章于 2025-12-21 13:00:28 发布

river

最新推荐文章于 2025-12-21 13:00:28 发布

阅读量54

点赞数

CC 4.0 BY-SA版权

分类专栏：探秘云原生可观测性与OpenTelemetry 文章标签：遥测数据分析 Jaeger Prometheus

本文链接：https://blog.youkuaiyun.com/river/article/details/149656973

探秘云原生可观测性与OpenTelemetry 专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

遥测数据分析后端选项与问题诊断

1. 后端工具介绍

在遥测数据分析中，有多种后端工具可供选择，这些工具各有特点，能帮助我们从不同角度分析和可视化遥测数据。

1.1 Jaeger

功能特点 ：和 Zipkin 类似，Jaeger 可以通过系统架构图可视化服务之间的关系。其独特之处在于支持追踪比较功能，用户可以从搜索结果中选择感兴趣的追踪，点击“Compare Traces”按钮进行比较。
实际应用 ：例如在一个操作中，杂货店未能连接到旧的库存服务，导致错误和跨度缺失，通过追踪比较图可以快速识别正常追踪和出现错误的追踪之间的差异。

1.2 Prometheus

基本信息 ：2012 年由 SoundCloud 的工程师开发，是一个占主导地位的开源指标系统。它支持多维数据，并且对警报提供一流的支持，深受 DevOps 从业者的喜爱。
工作模式 ：最初仅使用拉取模型，应用程序通过网络端点暴露指标，由 Prometheus 服务器进行抓取。现在通过 Prometheus Remote Write 支持推送模型，允许生产者将数据发送到远程服务器。
主要组件 ：
- Prometheus 服务器 ：从抓取目标收集数据并存储在其时间序列数据库（TSDB）中。
- Prometheus 查询语言（PromQL） ：用于搜索和聚合指标。
- Prometheus 网络 UI ：用于可视化指标数据。
配置示例 ：将以下配置添加到收集器的配置文件中，可将指标发送到 Prometheus。

config/collector/config.yml
exporters:
  ...
  prometheus:
    endpoint: 0.0.0.0:8889
    resource_to_telemetry_conversion:
        enabled: true
service:
  pipelines:
...
    metrics:
      receivers: [otlp]
      exporters: [logging, prometheus]
...

操作步骤 ：
1. 使用以下命令重新加载收集器：

$ docker compose restart opentelemetry-collector

2. 在浏览器中访问 `http://localhost:9090` 打开 Prometheus 网络界面。
3. 使用 PromQL 查询 `{job="opentelemetry-collector"}` 可返回 OpenTelemetry 收集器产生的所有指标。

1.3 Loki

基本介绍 ：由 Grafana Labs 在 2018 年启动的项目，是一个设计为易于扩展和操作的日志聚合系统。其设计灵感来自 Prometheus。
组件构成 ：
- 分发器 ：验证和预处理传入的日志数据，然后将其发送到摄取器。
- 摄取器 ：将数据写入存储，并为内存中的数据提供读取端点。
- 规则器 ：解释可配置的规则，并根据这些规则触发操作。
- 查询器 ：对摄取器和存储执行查询。
- 查询前端 ：作为代理，优化对查询器的请求。
配置示例 ：OpenTelemetry 收集器提供了 Loki 导出器，可按以下代码片段进行配置。

config/collector/config.yml
exporters:
  …
  loki:
     endpoint: http://loki:3100/loki/api/v1/push
     labels:
       resource:
        service.nam": "job"
service:
  pipelines:
...
    logs:
      receivers: [otlp]
      exporters: [logging, loki]
...

操作步骤 ：使用以下命令重新加载收集器以开始向 Loki 发送数据：

$ docker compose restart opentelemetry-collector

1.4 Grafana

基本功能 ：自 2014 年由 Grafana Labs 开发的开源工具，允许用户可视化和查询遥测数据。它支持配置各种数据源，包括 Zipkin、Jaeger、Prometheus 和 Loki。
日志访问 ：通过浏览器访问 http://localhost:3000/explore 进入 Grafana 界面的探索部分，在查询字段中输入 {job=~"grocery-store|inventory|shopper"} 可查看杂货店所有组件的日志。
高级功能 ：Grafana 允许用户创建仪表板和警报，并且可以在单个仪表板中查看来自所有信号的数据。例如，在开发环境中预配置了一个组合多信号数据的仪表板，可通过 http://localhost:3000/d/otel/opentelemetry 访问。

2. 生产环境考虑因素

在生产环境中使用这些分析工具时，需要考虑以下几个方面的挑战。

2.1 高可用性

重要性 ：虽然遥测后端的可用性对最终用户的重要性可能不如被监控的应用程序，但在发生故障时，如果用于调查的数据不可用或缺失，会带来问题。如果应用程序承诺 99.99% 的正常运行时间，遥测后端必须保证相应的数据可用性。
考虑因素 ：
- 接收器可用性 ：通过在发送者和接收器之间放置负载均衡器，确保遥测接收器对发送者可用。
- 后端升级 ：考虑如何升级后端，并尽量减少对被观察应用程序的影响。
- 数据查询期望 ：了解对数据查询的期望。
- 数据复制 ：决定需要复制多少数据以减轻灾难性故障的风险。

2.2 可扩展性

基本要求 ：遥测后端必须能够随着其所支持的应用程序一起增长。了解工具的扩展能力有助于选择合适的后端。
相关问题 ：
- 组件独立扩展 ：后端的组件是否可以独立扩展？
- 扩展方式 ：扩展后端需要垂直扩展还是水平扩展？
- 扩展极限 ：解决方案的扩展范围有多大？是否存在硬限制？

2.3 数据保留

面临挑战 ：遥测数据的产生量很大，存储所有数据会带来成本问题，但记录太少又难以找到有价值的信息。
解决思路 ：
- 确定保留期 ：为产生的数据量确定一个可接受的数据保留期，随着团队识别问题的能力提高，这个保留期可能会改变。
- 低成本存储 ：如果需要长期存储数据，可以使用低成本存储来降低运营成本，虽然查询时间可能会变长，但数据仍然可用。
- 采样选项 ：为不同的信号调整合理的采样选项。

2.4 隐私法规

法规要求 ：根据应用程序产生的遥测数据内容，数据的存储位置和方式有不同的要求。例如，《通用数据保护条例》（GDPR）建议对个人可识别数据进行假名化处理。
应对措施 ：使用 OpenTelemetry 收集器作为遥测数据的接收器，在将数据发送到后端之前进行处理。收集器中的各种处理器可以配置为清除敏感信息。

3. 问题诊断与混沌工程

在完成应用程序代码的检测、收集器的配置和后端的设置后，我们可以开始观察系统。但如何利用这些工具检测系统中的异常呢？这就涉及到问题诊断和混沌工程。

3.1 混沌工程简介

基本概念 ：混沌工程是一种通过有意引入新条件到系统中进行实验的实践，目的是确保系统在生产环境中能够承受故障。
实验原则 ：虽然混沌工程师在生产环境中进行实验，但实验必须是可控和有限范围的，不能给用户带来不必要的痛苦。

3.2 实验周期

graph LR
    A[系统处于已知良好状态或稳定状态] --> B[提出假设]
    B --> C[运行实验]
    C --> D[验证系统影响]
    D --> E[进行系统改进]
    E --> A

步骤说明 ：
1. 系统状态 ：从系统处于已知良好状态或稳定状态开始。
2. 提出假设 ：提出一个假设来解释实验对系统状态的影响。
3. 运行实验 ：在系统上运行提出的实验。
4. 验证影响 ：验证实验对系统的影响，确保预测与假设相符，同时识别实验的意外副作用。
5. 系统改进 ：根据验证结果对系统进行改进，然后重复这个周期。

3.3 实验示例

例如，假设同时关闭所有生产服务器会导致系统完全故障，这种假设不需要验证，因为它会给用户带来不必要的痛苦，且没有太多可学习的价值。

4. 技术环境搭建

在进行问题诊断实验之前，需要搭建相应的技术环境。

4.1 环境要求

使用杂货店应用程序作为示例，将其作为 Docker 容器通过 Compose 运行。
确保 Docker 和 Docker Compose 已安装。

4.2 操作步骤

检查 Docker 版本：

$ docker version

检查 Docker Compose 版本：

$ docker compose version

下载项目仓库：

$ git clone https://github.com/PacktPublishing/Cloud-Native-Observability
$ cd Cloud-Native-Observability/chapter11

启动环境：

$ docker compose up

重置环境：

$ docker compose stop
$ docker compose rm

通过以上介绍，我们了解了遥测数据分析的后端工具、生产环境中的考虑因素、问题诊断的方法以及技术环境的搭建。这些知识和操作步骤可以帮助我们更好地分析和理解系统中的遥测数据，从而解决实际问题。

遥测数据分析后端选项与问题诊断

5. 常见分布式系统问题场景及诊断

在分布式系统中，会出现各种常见的问题场景，下面我们将介绍这些场景，并通过遥测数据来诊断问题。

5.1 服务连接失败

场景描述 ：如前面提到的杂货店未能连接到旧的库存服务，导致错误和跨度缺失。这种情况可能是由于网络故障、服务配置错误或服务本身崩溃等原因引起的。
诊断方法 ：使用 Jaeger 的追踪比较功能，对比正常追踪和出现错误的追踪，快速定位问题发生的位置。同时，查看 Prometheus 中的相关指标，如服务的响应时间、请求成功率等，判断服务的健康状态。

5.2 性能瓶颈

场景描述 ：系统在高负载情况下可能会出现性能瓶颈，导致响应时间变长、吞吐量下降等问题。
诊断方法 ：通过 Grafana 查看系统的各项指标，如 CPU 使用率、内存使用率、网络带宽等。结合 Prometheus 的指标数据，分析哪些组件的性能达到了瓶颈。例如，如果 CPU 使用率持续过高，可能需要优化相关代码或增加计算资源。

5.3 数据不一致

场景描述 ：在分布式系统中，由于数据复制、同步等问题，可能会出现数据不一致的情况。
诊断方法 ：查看 Loki 中的日志信息，检查数据处理过程中的关键步骤，是否存在数据丢失或错误。同时，使用 Prometheus 监控数据的一致性指标，如数据副本的差异率等。

6. 引入故障的工具

为了更好地进行问题诊断和系统测试，我们可以使用一些工具来引入故障。

6.1 工具介绍

Chaos Monkey ：这是一种流行的混沌工程工具，它可以随机终止生产环境中的实例，模拟各种故障场景，帮助我们发现系统中的潜在问题。
Pumba ：Pumba 可以在 Docker 容器中引入网络延迟、丢包等故障，用于测试系统在网络异常情况下的稳定性。

6.2 使用示例

假设我们使用 Pumba 来引入网络延迟：
1. 首先，确保 Pumba 已安装。
2. 然后，使用以下命令在指定的 Docker 容器中引入 100ms 的网络延迟：

$ pumba netem --duration 60s delay --time 100 container_name

其中， container_name 是要引入故障的 Docker 容器名称， --duration 60s 表示故障持续时间为 60 秒， --time 100 表示延迟时间为 100ms。

7. 实验流程总结

在进行问题诊断和系统测试时，我们可以按照以下流程进行实验：

graph LR
    A[确定系统稳定状态] --> B[提出问题场景和假设]
    B --> C[选择引入故障的工具和方法]
    C --> D[运行实验]
    D --> E[收集遥测数据]
    E --> F[分析数据，验证假设]
    F --> G[根据结果改进系统]
    G --> A

具体步骤如下：
1. 确定系统稳定状态 ：确保系统处于正常运行状态，记录各项指标的基准值。
2. 提出问题场景和假设 ：根据常见的分布式系统问题场景，提出可能出现的问题，并假设系统在这种情况下的表现。
3. 选择引入故障的工具和方法 ：根据问题场景选择合适的工具，如 Chaos Monkey 或 Pumba，并确定引入故障的具体参数。
4. 运行实验 ：按照设定的参数运行实验，观察系统的反应。
5. 收集遥测数据 ：使用前面介绍的后端工具，如 Jaeger、Prometheus、Loki 和 Grafana，收集系统的遥测数据。
6. 分析数据，验证假设 ：通过分析收集到的数据，验证我们的假设是否成立。如果数据与假设不符，需要进一步分析原因。
7. 根据结果改进系统 ：根据实验结果，对系统进行改进，如优化代码、调整配置或增加资源等。然后重复这个流程，不断提高系统的稳定性和可靠性。