分布式追踪框架:从个体请求到聚合分析
1. 分布式追踪框架的发展与挑战
Dapper 是首个由大型公司在生产环境中公开使用的分布式追踪框架。它不仅完善了先前的追踪模型,还揭示了一些此前未被考虑的运营挑战,包括追踪采样的需求、运行时开销的权衡、安全问题以及如何让用户能够访问追踪数据。
随着分布式系统的不断发展,分布式追踪框架的需求也在发生变化。最初,主要关注的是获取面向请求的信息的技术需求。逐渐地,开始纳入一些实际需求,例如如何简化采用过程以及如何提高追踪数据的实用性。随着分布式追踪框架在生产环境中的广泛应用,涉及可扩展性和追踪后端的运营需求也逐渐显现。
然而,这些需求并非一成不变。新的系统设计和架构不断涌现,如无服务器计算和流式系统的日益普及。随着计算系统的变化,可能会影响或促使分布式追踪框架做出相应的改变。此外,在解决分布式系统故障方面,我们尚未掌握所有的方法。分布式追踪虽然能提供有价值的可见性,请求也被证明是捕获信息的有用维度,但从分布式追踪数据中提取价值的方法仍在不断变化,不如获取数据的技术那么成熟。新的追踪分析进展可能会引发系统捕获数据的变化。
2. 超越个体请求:聚合追踪的价值
2.1 个体请求追踪的局限性
单个追踪可以捕获关于单个请求端到端行为的有用信息,包括每个 RPC 的执行时间、每一跳的数据传输量、超时和错误响应等。通过仔细检查单个追踪,通常可以解释请求为何花费了特定的时间。例如,可能会发现某个请求在缓存中未命中,或者某个服务返回了异常大的响应记录,导致序列化和反序列化时间过长。还可能会发现大型 RPC 扇出中有一个响应比其他响应慢很多的延迟者,或者追踪显示出本应并行执行的 RPC 调用实际上是
分布式追踪框架:个体请求到聚合分析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



