网络自动化架构:从告警到实践应用
1. 告警机制的关键要点
确定何时触发告警并非易事。告警需要在恰当的时间发出,过期的事件对于采取行动而言毫无用处,同时告警内容必须相关,以避免误报和无法采取行动的告警。那些无法采取行动的告警(例如“对所有事情都发出告警”的行为),由于信息过载和值班人员的疲惫,最终必然会被忽视。
触发告警的标准及其严重程度,应该基于对服务的影响以及采取行动的能力。在异常检测中,一个常见的规则是使用标准差作为参考,查看数值是否偏离正常范围。例如,一个接口的利用率通常为 10%,突然跃升至 40%,这种 4 倍的增长可能会触发告警,并非因为这个数值本身,而是因为其增长幅度。
此外,还需要关注监控系统本身。运用“安全开关”的概念,当预期的指标不可用时,告警系统应该发出警报。以下是减轻这种告警缺口的不同方法:
- 预初始化所有指标 :确保所有应用程序在启动时初始化这些指标,但这会导致存储成本增加。
- 使用单一事实来源(SoT)作为参考 :如果知道库存中有一个活动的交换机,但没有相关指标,就可以知道该设备的状态出现了问题。
2. 网络自动化中的编排作用
在网络自动化架构中,每个组件在整体策略中都有其特定的目的。就像交响乐团需要一位指挥来协调一样,编排(Orchestration)在网络自动化解决方案中起着类似的作用。对于简单的解决方案,可能可以省略编排,但当涉及多个步骤时,编排的作用就至关重要了。编排可以是全面的,也可以专注于某些特定的流程。
网络自动化将手动的网络操作工作流程转化为自动化流程,大部分重复性工作由计
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



