Slurm-web v4.2.0版本发布:增强Slurm集群管理能力
Slurm-web是一个基于Web的Slurm工作负载管理器前端界面,它为高性能计算(HPC)集群管理员和用户提供了直观的图形化操作界面。通过Slurm-web,用户可以方便地提交、监控和管理作业,而管理员则能更高效地管理整个集群资源。
核心功能增强
本次发布的v4.2.0版本在多个方面进行了重要改进,特别是在日志管理、Slurmrestd连接测试和前端功能增强方面。
日志组件标识功能
新版本为所有命令增加了--log-component
选项,这个功能允许在每条日志条目前添加组件名称前缀。对于系统管理员来说,这个改进使得在多组件环境下排查问题变得更加容易,可以快速定位日志来源。
Slurmrestd连接测试工具
引入的slurm-web-connect-check
实用程序是一个重大改进,它允许管理员测试agent配置参数下对slurmrestd
服务的访问情况。这个工具对于调试连接问题和验证配置非常有用,特别是在复杂的认证环境中。
前端界面改进
作业列表功能增强
- 资源排序功能:现在用户可以根据资源使用量对作业进行排序,这使得识别资源密集型作业变得更加直观。
- 优先级显示:作业列表中新增了优先级显示,帮助用户和管理员更好地理解作业调度顺序。
- 响应式布局优化:在小屏幕设备上,作业视图会自动移除部分列,确保关键信息始终可见。
- 视图图标改进:将作业的"view"链接替换为窗口图标,使界面更加整洁和专业。
RacksDB基础设施可视化
默认情况下禁用了RacksDB基础设施图形表示中的机架和行标签显示。这一改变减少了视觉混乱,同时保留了通过[ui]
配置参数恢复这些标签的灵活性。
安全与认证增强
JWT认证支持
v4.2.0版本在agent组件中增加了对slurmrestd
的JWT认证支持,包括静态和自动两种模式:
- 静态模式:使用预生成的令牌进行认证
- 自动模式:系统自动生成和管理令牌
相关配置参数包括:
auth
:启用认证jwt_mode
:指定认证模式jwt_user
:认证用户jwt_lifespan
:令牌有效期jwt_key
:密钥配置jwt_token
:静态令牌
TCP/IP套接字支持
agent现在支持通过TCP/IP套接字访问slurmrestd
服务,这为网络配置提供了更大的灵活性。原有的socket
参数已被弃用,取而代之的是更通用的uri
参数。
系统集成改进
配置与文档更新
- 统一系统用户配置:将系统用户配置文件从
slurm-web-gateway.conf
重命名为slurm-web.conf
,使其适用于gateway和agent两个组件。 - 文档完善:新增了"Slurmrestd Access"页面,详细说明了在各种配置下设置Slurm和agent的指南。
依赖项更新
- 解决了与setuptools
pkg_resources
相关的DeprecationWarning问题 - 更新了前端依赖项,修复了多个已知问题
- 提升了多个基础库的最低版本要求
问题修复
- 错误处理改进:修复了Flask<1.1.0版本中通用Python异常处理的问题,确保返回JSON格式的错误描述
- RacksDB版本比较:增强了RacksDB/agent版本部分的比较逻辑,支持字符串比较
- 前端问题修复:解决了基础设施图请求中缺少bearer令牌的问题,并优化了取消请求的错误显示
总结
Slurm-web v4.2.0版本通过引入JWT认证、TCP/IP连接支持、增强的前端功能和改进的管理工具,显著提升了系统的安全性、灵活性和可用性。这些改进使得Slurm-web在高性能计算环境中的集群管理工作更加高效和可靠。对于现有用户,建议评估新功能并考虑升级以获得更好的使用体验。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考