SRX设备高可用性与故障排查全解析
1. SRX设备基础运行机制
1.1 节点故障处理
当控制和数据平面的主设备在无法与另一个节点通信时,会记录该节点已关闭,但仍会继续转发流量。若剩余节点为备用节点,它会在错过所有心跳信号后,判定该节点故障,随后接管主控制权。
1.2 电源冗余设计
不同型号的SRX设备在电源冗余方面有不同设计:
| 设备型号 | 电源数量 | 运行要求 | 最佳部署数量 |
| ---- | ---- | ---- | ---- |
| SRX650、SRX3400 | 冗余电源 | 剩余电源可维持机箱运行 | - |
| SRX3600 | 最多4个 | 至少2个运行 | 4个 |
| SRX5000系列 | 最多4个 | 建议最少3个,可根据机箱内运行卡数量使用单个电源 | - |
若安装组件的总功耗超过可用电源功率,所有卡将关闭,路由引擎(RE)会持续尝试启动卡,直至电源可用。为确保可用性,建议部署具有最大可用电源的SRX设备。
1.3 软件监控机制
SRX设备会对控制和数据平面的软件进行监控,尝试在系统出现故障时立即检测到,并做出相应反应。若RE中的某个进程失败,它可以重启该进程,并记录故障以便进一步排查。
在分支数据平面,核心flowd进程由RE持续监控。若flowd进程崩溃或挂起,控制平面会迅速切换到另一个节点,此过程比检测到节点死亡的时间更短。在数据中心SRX的数据平面,每个服务处理单元(SPU)同时运行控制和数据软件,RE直接与每个SPU的控制软件通信以获取状态更新和进行配置更改。若数据
SRX设备高可用与排错指南
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



