lsfMonitor : LSF/Openlava数据采集和信息展示工具

lsfMonitor是一款免费开源的工具,用于收集和展示IBM LSF及Openlava集群数据。它提供数据采集、信息展示功能,包括任务、队列、主机和负载信息。bsample.py用于数据采集,bmonitor实现图形界面展示。该工具支持通过crontab定期采集数据,提供JOB、JOBS、HOSTS、QUEUES和LOAD五个页面,便于监控和分析集群状态。

       写在开头,lsfMonitor同时支持LSF和Openlava,功能比openlavaMonitor更强大。

       IBM®Platform™LSF®是功能强大的工作负载管理平台,适用于苛刻的分布式HPC环境。 它提供了一套全面的、智能的、由策略驱动的调度功能,使您能够利用所有计算基础架构资源并确保最佳的应用程序性能。

       LSF功能强大,是集成电路设计行业具有统治地位的集群管理调度系统。同免费开源的openlava和SGE等相比,LSF在稳定性上具有极大的优势;同流行的slurm及PBS相比,LSF则在EDA兼容方面具有不可替代性。

       对LSF的用户来说,除了最常用的任务分发功能,他们往往需要记住如下指令以获取必要的集群、机器及任务信息。

bjobs : 获取任务信息。

bhosts :获取机器静态及动态信息。

lshosts :获取机器静态信息。

lsload :获取机器负载信息。

bqueues :获取队列信息。

       同时,用户也常常因为一些更为复杂的应用场景感到困惑。

  1. 我的任务为什么会PEND?(pend reason获取)
  2. 我的任务申请的内存资源合理吗?(reserve memory & used memory)
  3. 我的任务为什么会失败?(reserved memory << used memory是重要诱因之一)
  4. 我(或者指定的用户/机器/队列)有哪些jobs?(jobs获取及基本信息展示)
  5. 集群有哪些机器?负载状况如何?(机器及其静态/动态信息获取)
  6. 集群有哪些队列?负载状况如何?(队列及其job负载状况获取)
  7. 机器资源(cpu/memory)的历史使用状况。(用来做机器及任务异常原因分析)
  8. … …

       IBM本身提供了RTM等额外套件辅助LSF信息获取和监控,但是价格昂贵且使用略显繁琐,对于LSF的普通用户来说,lsfMonitor则是一个简单易用的替代方案,它是一个免费开源的LSF数据采集和信息展示工具,用以满足用户如上的信息获取需求。

       后面我们从如下方面展开介绍一下lsfMonitor。

  • 下载安装
  • 数据采集
  • 信息展示

一、下载安装

       您可以从https://gitee.com/liyanqing1987/lsfMonitor上获得lsfMonitor的源码。

       Code -> Download ZIP可以直接下载zip格式的安装包。

       如果Linux系统可以联网,也可以直接通过git clone的方式直接从github下载源码包。

       Code -> HTTPS可以获取源码包的clone地址。

       地址为 https://gitee.com/liyanqing1987/lsfMonitor.git

       将lsfMonitor源码包拷贝到安装目录INSTALL_PATH。(最好采用root账号,下同)

       进入安装目录,确认安装文件完整。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值