杨明,勤智运维产品及研发中心TAC部门经理(Technical Assistance Center),从数据库开发、项目交付、项目管理、TAC部门管理一路走来,9年的行业经历积累了专业的运维知识技能和项目交付管理经验,目前主要负责勤智运维全国项目二线技术支持管理工作。
服务器分类-按处理器架构:
PC服务器(x86服务器)
小型机
大型机
在往期的文章中我们分享了如何管理X86服务器,本期我们以中国银行某分行运维监控项目为例,介绍如何从多角度管理IBM Power小型机。
入门篇
操作系统
行业内常用的监控方式主要有SNMP 、SSH、telnet、Agent代理。SNMP配置复杂度3星,能获取的性能指标很有限(CPU/内存/系统分区)。telnet方式配置复杂度1星,通信明文传输,安全性极低。SSH方式配置复杂度1星,协议本身传输内容密匙加密,同时产品对用户密码信息MD5/SHA双重加密,安全性更可靠。SSH监控方式,除了能采集CPU利用率、内存利用率、磁盘利用率这些常用指标外,还能深入检查系统进程资源开销,进程可用性、网络端口流量、文件一致性。
“相对于我以前使用的国外大厂的监控产品,让我头疼的Agent软件部署工作也省去了,现在我只用输入一个普通账号就能快速完成系统监控;MD5方式监测系统核心文件是否有被篡改,这是我以前手工才能完成的工作,而它也帮我实现了!”这是用户最直观的感受。
进阶篇
HMC监控
IBM硬件管理控制台(Hardware Management Console)提供了标准的用户接口来配置和管理Power System系列服务器以及服务器上的分区。系统管理员通过HMC对Power System服务器上的分区进行配置和日常管理。
基于HMC技术对小型机LPAR分区监控效果:
相对繁琐的命令行操作,图形化显示分区情况更加清晰和直观,配合灵活的指标阈值告警策略,LPAR分区资源实时动态一览无余。
专业篇
硬件日志
对服务器的系统日志监控,多数运维厂商基本都偏向于Syslog的信息分析,优点是容易实施。而在AIX平台上面硬件故障是无法体现在Syslog中,所以这个时候使用常规的syslog日志监控手段已经失去意义。
ERRPT命令专门用AIX下面的监控服务器硬件损坏的错误日志查看命令。一旦系统的某个功能模块检测到一个错误或定义的需要记录日志的事件,则记录到/dev/error设备,把它保存在NVRAM中,这样可以保证即使在系统崩溃的情况下也不会丢失最新的错误日志。
虽然ERRPT好处多多,但其有一个不太灵活的弊端:用more或者其他文本的查看命令来打开errlog文件我们看到的只是一对乱码,要查阅故障信息只能通过ERRPT来实时查看。那么,如何才能实现当ERRPT有告警信息能及时通知到运维管理员呢?
在此分享一下OneCenter功能实现的思路:
1. 第一次获取errpt日志,存放本地文件【Aix_curr.log】;
2. 第二次获取epprt日志【Aix_aft.log】,与第一次文件对比;
3. 若前后两次文件对比结果不同,将新增差异数据放本地文件AIX_ERR.LOG,同时将最后一次获取的ERRPT全文内容给【Aix_aft.log】,作为下一次对比基准;
4. 循环调度,3分钟一次文件对比;
6. 运维系统获取告警关键词产生告警。
实例代码:
平台告警:
至此,基于操作系统与硬件两方面,应该说已能较为全面的对小型机进行主动的运维管理。即使不能让作为运维者的你高枕无忧,至少可以让你睡的更安稳。分割线
脚本部署难度大?代码不会写?设备太多实施太慢?老铁们,没问题!ITAM自动化运维工具,脚本批量部署与操作指令批量下发,上百台服务器的工具部署维护,动动鼠标几分钟内搞定!
本文通过中国银行某分行的运维监控项目案例,介绍了如何从操作系统和硬件两个层面全面管理IBMPower小型机,包括使用SSH进行系统监控、利用HMC进行LPAR分区管理和通过ERRPT命令监控硬件故障。
1084

被折叠的 条评论
为什么被折叠?



