普林斯顿大学HPC入门工作坊项目常见问题解决方案
hpc_beginning_workshop 项目地址: https://gitcode.com/gh_mirrors/hp/hpc_beginning_workshop
项目基础介绍
普林斯顿大学HPC入门工作坊项目(PrincetonUniversity/hpc_beginning_workshop)旨在为初学者提供在普林斯顿大学研究计算集群上运行示例作业的资源。该项目包含了多种编程语言的示例代码,帮助用户熟悉高性能计算(HPC)环境。
主要编程语言
该项目涵盖了多种编程语言,包括但不限于:
- Python
- C++
- Fortran
- Julia
- MATLAB
- R
- 以及其他与HPC相关的语言和框架,如CUDA、MPI、OpenACC、OpenCL等。
新手使用项目时的注意事项及解决方案
1. 环境配置问题
问题描述:新手在尝试运行示例代码时,可能会遇到环境配置问题,如缺少必要的软件包或模块。
解决步骤:
- 检查环境模块:在登录到HPC集群后,使用
module avail
命令查看可用的环境模块。 - 加载所需模块:根据示例代码的要求,使用
module load <module_name>
命令加载相应的模块。例如,如果示例代码需要Python,可以使用module load python
。 - 安装缺失包:如果示例代码需要特定的Python包,可以使用
pip install <package_name>
命令安装。确保在虚拟环境中进行安装,以避免冲突。
2. 文件存储路径问题
问题描述:新手可能会将作业文件存储在错误的目录中,导致作业运行缓慢或失败。
解决步骤:
- 了解文件系统:熟悉HPC集群的文件系统结构,特别是
/scratch/network
和/scratch/gpfs
目录,这些目录提供了更快的文件访问速度和更大的存储空间。 - 正确存储文件:将作业文件存储在
/scratch/network
(Adroit集群)或/scratch/gpfs
(其他集群)目录中。避免将文件存储在/tigress
或/projects
目录中,这些目录访问速度较慢。 - 验证路径:在提交作业前,使用
ls
命令验证文件路径是否正确。
3. 作业提交问题
问题描述:新手在提交作业时可能会遇到错误,如作业未启动或运行失败。
解决步骤:
- 检查作业脚本:确保作业脚本(如Slurm脚本)中包含了正确的资源请求(如CPU、内存、时间等)。
- 查看作业状态:使用
squeue -u <YourNetID>
命令查看作业状态。如果作业未启动,检查是否有足够的资源可用。 - 查看作业日志:如果作业运行失败,查看作业的输出日志(通常存储在
slurm-<job_id>.out
文件中),根据日志信息排查问题。 - 调整资源请求:根据作业的实际需求调整资源请求,避免资源不足或浪费。
通过以上步骤,新手可以更好地理解和使用普林斯顿大学HPC入门工作坊项目,顺利运行示例作业并解决常见问题。
hpc_beginning_workshop 项目地址: https://gitcode.com/gh_mirrors/hp/hpc_beginning_workshop
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考