背景信息
gs_check改进增强,统一化当前系统中存在的各种检查工具,例如gs_check,gs_checkos等,帮助用户openGauss运行过程中,全量的检查openGauss运行环境,操作系统环境,网络环境及数据库执行环境,也有助于openGauss重大操作之前对各类环境进行全面检查,有效保证操作执行成功。
注意事项
- 必须指定-i或-e参数,-i会检查指定的单项,-e会检查对应场景配置中的多项。
- 如果-i参数中不包含root类检查项或-e场景配置列表中没有root类检查项,则不需要交互输入root权限的用户及其密码。
- 可使用–skip-root-items跳过检查项中包含的root类检查,以免需要输入root权限用户及密码。
- MTU值不一致时可能导致检查缓慢或进程停止响应,当巡检工具出现提示时请修改各节点MTU值一致后再进行巡检。
- 交换机不支持当前设置的MTU值时,即使MTU值一致也会出现通信问题引起进程停止响应,需要根据交换机调整MTU大小。
语法
- 单项检查:
gs_check -i ITEM [...] [-U USER] [-L] [-l LOGFILE] [-o OUTPUTDIR] [--skip-root-items][--set][--routing]
- 场景检查:
gs_check -e SCENE_NAME [-U USER] [-L] [-l LOGFILE] [-o OUTPUTDIR] [--skip-root-items] [--time-out=SECS][--set][--routing][--skip-items]
- 显示帮助信息
gs_check -? | --help
- 显示版本号信息
gs_check -V | --version
用户自定义检查项
- 新增巡检项配置,修改script/gspylib/inspection/conifig/items.xml文件,格式如下:
<checkitem id="10010" name="CheckCPU">
<title>
<zh>检查CPU占用率</zh>
<en>Check CPU Idle and I/O wait</en>
</title>
<threshold>
StandardCPUIdle=30;
StandardWIO=30
</threshold>
<suggestion>
<zh>如果idle不足 CPU负载过高,请扩容CPU节点,如果iowait过高,则磁盘为瓶颈,更换高性能磁盘</zh>
</suggestion>
<standard>
<zh>检查主机CPU占用率,如果idle大于30%并且iowait小于30%,则检查项通过,否则检查项不通过</zh>
</standard>
<category>os</category>
<permission>user</permission>
<scope>all</scope>
<analysis>default</analysis>
</checkitems>
2.新建检查脚本,脚本名称格式遵循CheckXXXX.py,必须以Check开头,脚本放置在script/gspylib/inspection/items目录下,该目录下脚本安装巡检项分类组织,每个分类一个单独的文件夹,巡检项脚本放置在对应的分类文件夹中。格式如下:
class CheckCPU(BaseItem):
def __init__(self):
super(CheckCPU, self).__init__(self.__class__.__name__)
self.idle = None
self.wio = None
self.standard = None
def preCheck(self):
# check the threshold was set correctly
if (not self.threshold.has_key('StandardCPUIdle')
or not self.threshold.has_key('StandardWIO')):
raise Exception("threshold can not be empty")
self.idle = self.threshold['StandardCPUIdle']
self.wio = self.threshold['StandardWIO']
# format the standard by threshold
self.standard = self.standard.format(idle=self.idle, iowait=self.wio)
def doCheck(self):
cmd = "sar 1 5 2>&1"
output = SharedFuncs.runShellCmd(cmd)
self.result.raw = output
# check the result with threshold
d = next(n.split() for n in output.splitlines() if "Average" in n)
iowait = d[-3]
idle = d[-1]
rst = ResultStatus.OK
vals = []
if (iowait > self.wio):
rst = ResultStatus.NG
vals.append("The %s actual value %s is greater than expected value %s" % ("IOWait", iowait, self.wio))
if (idle < self.idle):
rst = ResultStatus.NG
vals.append("The %s actual value %s is less than expected value %s" % ("Idle", idle, self.idle))
self.result.rst = rst
if (vals):
self.result.val = "\n".join(vals)
- 将此脚本分发至所有的执行节点。
- 以omm用户登录,执行以下命令,查看结果。
本地执行:
gs_check -i CheckXXX -L
非本地执行:
gs_check -i CheckXXX