写在开头,lsfMonitor同时支持LSF和Openlava,功能比openlavaMonitor更强大。
IBM®Platform™LSF®是功能强大的工作负载管理平台,适用于苛刻的分布式HPC环境。 它提供了一套全面的、智能的、由策略驱动的调度功能,使您能够利用所有计算基础架构资源并确保最佳的应用程序性能。
LSF功能强大,是集成电路设计行业具有统治地位的集群管理调度系统。同免费开源的openlava和SGE等相比,LSF在稳定性上具有极大的优势;同流行的slurm及PBS相比,LSF则在EDA兼容方面具有不可替代性。
对LSF的用户来说,除了最常用的任务分发功能,他们往往需要记住如下指令以获取必要的集群、机器及任务信息。
bjobs : 获取任务信息。
bhosts :获取机器静态及动态信息。
lshosts :获取机器静态信息。
lsload :获取机器负载信息。
bqueues :获取队列信息。
同时,用户也常常因为一些更为复杂的应用场景感到困惑。
- 我的任务为什么会PEND?(pend reason获取)
- 我的任务申请的内存资源合理吗?(reserve memory & used memory)
- 我的任务为什么会失败?(reserved memory << used memory是重要诱因之一)
- 我(或者指定的用户/机器/队列)有哪些jobs?(jobs获取及基本信息展示)
- 集群有哪些机器?负载状况如何?(机器及其静态/动态信息获取)
- 集群有哪些队列?负载状况如何?(队列及其job负载状况获取)
- 机器资源(cpu/memory)的历史使用状况。(用来做机器及任务异常原因分析)
- … …
IBM本身提供了RTM等额外套件辅助LSF信息获取和监控,但是价格昂贵且使用略显繁琐,对于LSF的普通用户来说,lsfMonitor则是一个简单易用的替代方案,它是一个免费开源的LSF数据采集和信息展示工具,用以满足用户如上的信息获取需求。
后面我们从如下方面展开介绍一下lsfMonitor。
- 下载安装
- 数据采集
- 信息展示
一、下载安装
您可以从https://gitee.com/liyanqing1987/lsfMonitor上获得lsfMonitor的源码。
Code -> Download ZIP可以直接下载zip格式的安装包。

如果Linux系统可以联网,也可以直接通过git clone的方式直接从github下载源码包。
Code -> HTTPS可以获取源码包的clone地址。
地址为 https://gitee.com/liyanqing1987/lsfMonitor.git。

将lsfMonitor源码包拷贝到安装目录INSTALL_PATH。(最好采用root账号,下同)

进入安装目录,确认安装文件完整。

lsfMonitor是一款免费开源的工具,用于收集和展示IBM LSF及Openlava集群数据。它提供数据采集、信息展示功能,包括任务、队列、主机和负载信息。bsample.py用于数据采集,bmonitor实现图形界面展示。该工具支持通过crontab定期采集数据,提供JOB、JOBS、HOSTS、QUEUES和LOAD五个页面,便于监控和分析集群状态。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



