- 博客(14)
- 收藏
- 关注
原创 xCAT工具部署与踩坑记录
xCAT一个开源的可扩展的高级集群管理和配置工具,允许使用者通过一个单点控制和管理一个集群系统,管理者可以通过该工具批量管理裸金属服务器、虚拟机,可以批量分发安装操作系统,包括linux和windows等,并实现分发过程的高度自定义
2024-12-27 10:43:16
1379
原创 grafana从本地迁移到docker中
近期由于grafana-image-render的一些问题,grafana是本地部署,而grafana-image-render是运行在docker容器中的,中间出现了一些配置上的问题无法解决,因此不得不把grafana从本地部署迁移到docker容器中,使得grafana和grafana-image-render一起运行在容器中。上述文件和目录最好进行一个备份,后续会通过文件挂载的方式挂载到容器中以将原来本地的grafana配置映射到容器中。
2023-11-28 15:49:53
534
原创 grafana+prometheus合理处理查询结果为空的情况
返回结果为Empty query result的时候,上述的显示图就不会在panel中,因为没有数据,整个panel面板就是空的,而我想要的结果是即使是空的,也可以显示主机名,并且状态置为红色,以便一眼就能看出哪些服务器的文件系统掉了。这种方式解决的非正常计算节点的问题,此时只需要设置返回结果的阈值,例如挂载文件系统容量为10T,根文件系统为500G,若查询结果为500G,则设置查询结果小于等于500G时,显示红色,也可以达到目的。这样的结果也不是想要的,最终结果是想要呈现lustre文件系统的挂载状态。
2023-11-22 16:53:00
3205
1
原创 div标签实现submit功能
但是div标签没有,有时候利用div标签比较好调css样式,因此也希望利用div标签实现类似的功能,可以把数据提交到表单。这样也可以实现div标签的submit功能。
2023-11-02 08:57:27
513
原创 用户同步管理及集群初始配置-集群搭建步骤7
前面的几个步骤执行完之后,集群就已经创建好了初步的分区,如下所示:STATE为idle证明所有节点上的slurmd服务状态是正常,但此时用户还无法利用slurm提交作业,还需要对集群进行初始化配置以及创建用户,并把用户同步到所有的计算节点。1、集群添加accountaccount属性是slurm用户在提交作业时需要配置的属性之一,用于作业记账使用。集群在初始化时,需添加系统的account,用户提交作业时的可不指定account属性,因为系统中...
2022-05-16 11:08:06
3705
原创 slurm作业调度管理系统配置-集群搭建步骤6
SLURM (Simple Linux Utility for Resource Management)是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它以一种共享或非共享的方式管理可用的计算节点(取决于资源的需求),以供用户执行工作。SLURM 会为任务队列合理地分配资源,并监视作业至其完成。
2022-05-12 12:43:03
11733
3
原创 mariaDB数据库安装配置-集群搭建步骤5
MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。在存储引擎方面,使用XtraDB(英语:XtraDB)来代替MySQL的InnoDB。在配合slurm搭建集群的过程中,推荐利用数据库来存储slurm的作业记账信息以及作业完成信息等数据,数据库存储稳定、高效。此次搭建集群过程中,使用mariaDB数据库来存储作业信息。slurmd...
2022-05-12 08:37:05
3122
原创 munge认证服务配置-集群搭建步骤4
munge是认证服务,用于生成和验证证书。应用于大规模的HPC集群中,slurm官方推荐使用munge作为slurm作业调度系统的认证服务,用于主控节点和计算节点之间的认证通信。配置时分为server端和client端,其中server端应作为slurm调度服务的主控节点,用于管理认证服务。本次配置系统为:Centos7.9server端IP:192.168.1.203(cn03)client端:192.168.1.201-205(cn01-cn05)1、server端配置...
2022-05-11 15:34:50
6738
原创 NTP时间同步服务配置-集群搭建步骤3
NTP是用来使计算机时间同步化的一种协议,全称是Network Time Protocol。它可以在大规模的设备范围内同步矫正时间到几ms级别的精度,在网络稳定的局域网内,精度甚至可以达到微秒级别。 ntp端口使用的是 123。此次安装操作系统是在centos7.9环境下。server端IP:192.168.1.201client端IP:192.168.1.201-2051、server端的配置server端可以作为时间同步的源服务器,其他的服务器可以使用ntp同步到serv...
2022-05-10 14:46:00
2045
原创 NFS目录共享配置-集群搭建步骤2
集群搭建第一步是配置网络,使服务器之间能互相ping通,然后准备一个大一点的存储,供其他服务器共享,存储可以是专门的存储服务器,也可以是一块硬盘。
2022-05-10 09:06:21
1980
2
原创 linux下shell脚本激活conda环境后,无法使用相应环境下软件包的解决办法
最近使用HPC集群,提交作业的脚本需要用到特殊的conda环境,因此需要在脚本中激活conda环境。在网上查了很多教程,最终的结果是在脚本中虽然相应的环境激活了,但是该环境下安装的软件包无法使用,还是指向了系统路径下的软件。其实发现最终的坑是因为在shell脚本中必须指明环境的绝对路径。如下:#!/bin/bashsource /public/software/anaconda3/bin/activate /public/home/hpc_xhk/.conda/envs/alphafold...
2021-12-20 16:42:10
1197
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人