简介:网络诊断利器SreCli-Net

1.背景
SRE运维团队致力于通过自动化来提高运维的工作生产效率,推动向智能化运维方向迭代转变,解决传统运维的痛点。传统运维虽具有完整的运维体系,但运维方式各异,运维操作复杂,耗时长。如何提高混合云项目的运维效率,提高运维附加值和客户满意度,仍是我们的攻坚难题。
主要需面对以下几点挑战:
- 客户业务的快速发展与演进,传统运维滞后性被拉大
随着客户业务的发展和业务模式的不断演进,业务数据量也在逐年增加。给运维带来了更多机会与挑战,如何保障云内数据、云内外业务交互的稳定、安全、高效运行,是运维人员值得思考的问题。
- 平台各系统运行复杂,运维学习成本提高
随着云平台云产品版本的快速迭代,熟悉平台难度加大,随着云产品版本更迭和新功能的出现,新手学习的成本提高,熟悉云平台的各种运维操作难度加大。但不能从根本上解决快速赋能运维能力的问题。所有一切将会引发一连串的“蝴蝶效应”,甚至引发项目高风险或P级故障出现,将会直接影响客户云上业务的正常使用。
- 运维人员能力参差不齐,运维操作复杂
目前运维方式存在人工经验判断、平台各种手工操作、处理问题低效、故障应急处理耗时长等主要问题。由于系统的复杂性,技术人员在操作平台运维时,会浪费大量的时间在机器登入、工具使用等基础问题指导上。登录之后又面临各种增删改查操作指令的不统一。随着运维长时间的消耗,也会引起现场运维人员的心神俱疲,无法专注线上操作。尤其是面对一些没有经验的驻场或客户,常常会出现找不到目标机器,命令敲错等现象,使得整体运维低效和安全隐患频发。
综合以上关于客户、平台、运维三方面的运维问题, 提高运维效率、降低运维人员学习成本是当前的主要任务。在此大背景下,推出了SRE-CLI工具,该工具是一款支持shell功能、命令补全、问题诊断、故障止血等功能的srecli工具,逐步解决和完善当前的问题现状。
2.SRE-CLI基本介绍
SRE Command Line Interface (SRE CLI) 是一种运维工具,让您能够在命令行Shell 中使用命令对混合云进行运维操作。仅需最少的配置,即可使用 SRE CLI 运行命令,以便从终端程序中的命令提示符实现日常运维过程中复杂的命令。基于SRE 在日常工作中的问题处理、故障应急沉淀的“老中医”的经验,并通过命令行工具的方式集成在混合云中,无需配置,即可运行SRE CLI,通过简单命令,实现日常运维过程中复杂操作。
CLI交互能力模型,主要是由访问层、交互层、后端、基础设施四个部分组成。首先终端用户通过登录SRECLI后,进入交互层界面,通过选择相应的场景指令和辅助功能完成指定的动作,该动作会调用后端的各工具能力,以及数据源中数据,通过基础设施层进行计算,计算诊断的结果将直接输出至终端CLI黑屏界面上,完成一整个交互流程,如下图所示。

图1
- 问题诊断(ali_diag)
从服务单、工单、故障单中提炼高频操作,将常用操作、问题&故障点工具化成原子项。通过日常运维查询产品原子项,问题点、故障点、快速查询关键指标定位问题点。

图2
- 场景诊断(ali_scene)
以故障场景沉淀出一系列排查思路,以“三板斧”形式输出,精确定位问题所在。在此基础上进行故障点组装、故障精确定位。

图3
- 应急止血(ali_cure)
真实故障和风险止血恢复手段沉淀,发生并解决方案确定后,需要快速恢复,恢复动作包括重启、降级、限流、切换等。帮助客户业务快速恢复。
- 日常查询(ali_query)
日常查询、关联数据展示、常用信息获取,通过精确的查询方式,查询云内IP地址定位对应的产品、路由、容量、策略等信息。目前覆盖物理网络的各类IP维度查询。
- 智能抓流(ali_trace)
满足CLI在云平台内各点抓包的能力,通过定制化的抓包组合命令,快速落在抓包点,进行指定的进或出方向的网络流量抓包。覆盖经典网络类型抓包、VPC网络类型抓包两种。
<
SreCli-Net是一款专为混合云环境设计的网络诊断工具,它简化了运维人员的操作流程,提升了运维效率。该工具支持快速登录网络设备、诊断通用网络设备性能等问题,适用于多种网络诊断场景。
最低0.47元/天 解锁文章
4021

被折叠的 条评论
为什么被折叠?



