lsb.queue文件
lsb.queue 文件做如下配置:
Begin Queue
QUEUE_NAME = test
PRIORITY = 35
FAIRSHARE = USER_SHARES[[default,1]]
# mem/r15s/r1m/r15m/ut=loadSched/loadStop
- loadSched 必须先满足条件,然后才能将作业分派到主机。
- 如果是mem,
- 可用于调度的值大于此值,才开始接收作业
- 可用于调度的值小于此值,就拒绝接收作业
- 如果是mem,
- 如果是系统负载r15s、r1m、r15m、ut
- 设置的是已使用达到多少,就暂挂主机上的作业
- 如果 loadStop 满足条件,将暂挂主机上的作业,保留一个作业正常运行,等这个作业运行完并释放资源后,再逐步运行其他作业。
- 如果是mem配置的是可用于调度的值不足此值,就暂挂主机上的作业
- 如果是系统负载r15s、r1m、r15m/ut设置的是已使用达到多少,就暂挂主机上的作业
ut = 0.8/0.9
#Sort by ut
RES_REQ = order[ut] 寻找CPU资源比较多的机器来运行作业
# RES_REQ = order[mem] 寻找MEM资源比较多的机器来运行作业
End Queue
可用内存(lsload查看到的mem 2.6G)
=可用于调度的内存(bhosts -l Total 2.6G)+预留的内存(bhosts -l中 Reserved 9M)
[lsfadmin@master ~]$ lsload node2
HOST_NAME status r15s r1m r15m ut pg ls it tmp swp mem
node2 ok 0.0 0.1 0.2 4% 0.0 0 950 6805M 1.9G 2.6G
[lsfadmin@master ~]$ bhosts -l node2
HOST node2
STATUS CPUF JL/U MAX NJOBS RUN SSUSP USUSP RSV DISPATCH_WINDOW
closed_Full 12.50 - 32 30 30 0 0 0 -
CURRENT LOAD USED FOR SCHEDULING:
r15s r1m r15m ut pg io ls it tmp swp mem slots ngpus
Total 0.0 0.0 0.0 4% 0.0 12 0 950 6806M 1.9G 2.6G 0 0.0
Reserved 0.0 0.0 0.0 0% 0.0 0 0 0 0M 0M 9M - 0.0
lsb.hosts
在lsb.hosts中,给主机添加如下配置:
Begin Host
HOST_NAME mem
node2 2000/ # 当此节点可用内存达到2000M内存时,就不再往此节点上调度作业。单位可以在lsf.conf中定义;如未定义,默认为M。
node1 2000/
master 2000/
End Host
mem的
- mem的loadSched只能限制内存资源到了某个阈值不再往该机器上调度作业,但是在该机器上已经运行的作业具体消耗多少mem跟loadSched的限制是没有关系的。
- mem的loadStop配置是资源剩余不足某个阈值后,挂起作业的
6万+

被折叠的 条评论
为什么被折叠?



