30、分布式追踪的数据挖掘与实施挑战

分布式追踪的数据挖掘与实施挑战

在当今的软件系统中,分布式追踪正逐渐成为监控和管理复杂分布式系统性能的重要工具。本文将探讨如何通过数据挖掘从追踪数据中获取有价值的信息,以及在大型组织中部署追踪基础设施所面临的挑战和解决方案。

数据挖掘洞察

在分布式追踪中,我们可以通过各种方式从追踪数据中获取有价值的信息。

实时分析

以图 12.11 为例,前端服务到路由服务的调用通常为 10 次,但该追踪中只有 5 次。如果有更集成的 UI,从图表到追踪视图的导航可以无缝衔接。使用 Elasticsearch 作为存储时,生成图表的查询是按时间桶计算平均值的聚合查询,但不确定能否让 Elasticsearch 返回样本文档 ID(如追踪 ID)作为聚合桶的示例。

然而,在大规模系统中使用分布式追踪时,通常采用低概率采样。例如,Google 可能只对 0.01% 的追踪进行采样。当我们基于这些小样本进行特征提取和聚合时,由于样本量小,误差范围会增大。因此,我们需要知道数据挖掘结果的误差范围,并判断是否可接受,必要时可寻求数据科学家的帮助。

不过,大多数公司规模不如 Google 或 Facebook 大,可以采用更高的追踪采样率,也能承受基于尾部采样的性能开销。这种采样方式为数据挖掘带来了新的可能性,因为它在采样前会将完整追踪保存在收集器内存中,可在收集器中构建基础设施,对所有请求进行特征提取,保证结果的准确性。

历史分析

除了实时分析,对历史追踪数据进行分析也很有用。例如,当我们提出新的聚合类型时,之前的流式作业只会对新数据生成结果,没有历史数据作为对比。幸运的是,大数据框架非常灵活,可以

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值