系统运维工程师如何巡检机器?

我认为,系统运维工程师来做巡检,无非就是在linux系统上面执行一些命令看一些结果。

1,sar

sar 1 3
这个命令会每隔 1 秒采集一次系统的资源使用情况,共采集 3 次

2,free -m

free -m

free -m 命令用于以兆字节(MB)为单位显示系统内存的使用情况。
free -h 命令用于以千兆字节(GB)为单位显示系统内存的使用情况。
total :表示总内存大小。
used :已使用的内存大小。
free :空闲的内存大小。
shared :被共享使用的内存大小。
buff/cache :缓冲区和缓存使用的内存大小。
available :可被应用程序使用的内存大小

3,uptime

uptime

uptime 命令用于显示系统的运行时间以及当前的负载情况

4,df -h

df -h 命令用于显示文件系统的磁盘空间使用情况

5,iostat

iostat 命令用于监视系统输入 / 输出设备和 CPU 的使用情况。

6,netstat -ant | grep ESTABLISHED | wc -l

这段命令的作用是统计当前处于 “ESTABLISHED”(已建立连接)状态的网络连接数量。
netstat -ant 会列出所有的 TCP 网络连接状态信息。
grep ESTABLISHED 从上述输出中筛选出状态为 “ESTABLISHED” 的行。
wc -l 则对筛选出来的行数进行统计。

7,netstat -ant | grep WAIT | wc -l

这段命令会统计处于 “WAIT” 状态的网络连接的数量。
它先通过 netstat -ant 获取所有的 TCP 网络连接状态信息,然后使用 grep WAIT 筛选出包含 “WAIT” 的行,最后通过 wc -l 统计行数,也就是处于 " WAIT " 状态的连接数。

这段命令会统计处于 “WAIT” 状态的网络连接的数量。
它先通过 netstat -ant 获取所有的 TCP 网络连接状态信息,然后使用 grep WAIT 筛选出包含 “WAIT” 的行,最后通过 wc -l 统计行数,也就是处于 “WAIT” 状态的连接数。

我们可以把这些命令写进一个shell脚本里面,然后用crontab定时任务去定时执行这个脚本,并且把生成的内容写到一个日志文件中去

sh ./xunjian.sh > $(date +%Y-%m-%d)-xunjian.log 2>&1
sh ./xunjian.sh > `date +%Y-%m-%d`-xunjian.log 2>&1

上面这两个命令意思的是一样的,需要注意的是date后面必须要有一个空格,不然系统会报错。不符合date命令的用法。

#!/bin/bash
sar 1 3
free -m
uptime
df -h
iostat
netstat -ant | grep ESTABLISHED | wc -l
netstat -ant | grep WAIT | wc -l
### AI机房运维工程师概述 AI机房运维工程师是一种专注于人工智能基础设施维护和优化的技术角色。其主要职责是保障数据中心的稳定运行,支持AI模型训练、推理以及其他高性能计算需求。以下是关于此职位的具体描述: #### 职位描述 AI机房运维工程师负责管理和监控用于机器学习和深度学习的数据中心环境。这一岗位要求候选人具备扎实的基础设施管理经验以及对现代AI框架和技术栈的理解[^1]。 #### 技能要求 为了胜任AI机房运维工程师的工作,个人需掌握一系列关键技术与软技能: - **硬件知识**:熟悉服务器配置、网络设备调试及存储解决方案部署。 - **软件能力**:精通Linux操作系统及其命令行工具;能够安装并调优TensorFlow, PyTorch等主流AI框架。 - **自动化脚本编写**:利用Shell/Python开发批量处理任务或故障排查程序。 - **云服务集成**:如果涉及混合架构,则应了解AWS、Azure或者阿里云等相关平台的服务特性。 - **数据分析思维**:通过日志分析发现潜在风险点,并采取预防措施减少停机时间。 - **团队协作精神**:除了硬实力外,还需培养跨职能合作意识,在紧急情况下快速响应并与其他部门协调解决问题[^2]。 #### 工作职责 日常工作可能包括但不限于以下几个方面: - 定期巡检物理设施状态,确保温度湿度适宜且电源供应正常。 - 实施安全策略防止未授权访问同时保护敏感数据不被泄露。 - 对现有流程进行持续改进以提高效率降低成本。 - 参与新项目的规划阶段提供可行性评估报告。 - 教育指导初级成员提升整体技术水平形成良性循环的学习氛围。 ```bash #!/bin/bash # Example of a simple monitoring script that checks disk usage and sends an alert if over threshold. THRESHOLD=80 CURRENT=$(df / | grep / | awk '{ print $5}' | sed 's/%//g') if [ "$CURRENT" -gt "$THRESHOLD" ]; then echo "Disk is almost full ($CURRENT%)" | mail -s "Warning: Disk Space Low" admin@example.com fi ``` 上述代码片段展示了一个简单的磁盘空间监视器如何自动发送警告邮件给管理员当超过设定百分比时。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值