监控与安全:保障系统稳定运行的关键要素
监控的重要性与发展趋势
在当今快节奏的技术环境中,许多团队每天都会进行多次代码发布。在这样的背景下,及时获取关键指标对于做出正确决策至关重要。过去,我们可能可以接受在一两天后才了解关键业务指标,但现在,我们需要将所有指标掌握在手中,以便迅速采取行动。
然而,目前很多组织的指标存储在不同的系统中。应用级指标,如订单数量,可能存储在像 Omniture 这样的专有分析系统中,或者存于数据仓库,且这些系统的实时报告功能往往不完善。而系统指标,如响应时间、错误率和 CPU 负载,通常存储在运维团队可访问的系统中,这些系统一般支持实时报告。
为了简化架构,我们可以考虑统一收集、聚合和存储事件的系统。例如,Riemann 是一个事件服务器,可进行较为高级的事件聚合和路由;Suro 是 Netflix 的数据管道,可处理用户行为指标和操作数据,这些数据还能分发到不同的系统进行分析。
许多组织正朝着更通用的事件路由系统发展,这种系统能提供更大的灵活性,同时简化架构。
服务监控建议
对于每个服务,我们可以遵循以下建议:
1. 跟踪关键指标 :至少跟踪入站响应时间,接着是错误率,然后开始处理应用级指标。
2. 监控下游响应 :跟踪所有下游响应的健康状况,至少包括下游调用的响应时间,最好能跟踪错误率,可借助 Hystrix 等库。
3. 标准化指标收集 :统一指标收集的方式和位置。
4. 规范日志记录 :尽可能将日志记录到
超级会员免费看
订阅专栏 解锁全文

10万+

被折叠的 条评论
为什么被折叠?



