超算使用说明

部署运行你感兴趣的模型镜像

1.打开putty,输入连接账号和密码,点击save保存以后都可以直接使用。
1337511-20190810102930426-987398757.png
2.进入要上传的文件夹的上一层,使用git将项目上传上去:

scp -r XXX(项目名/文件夹名) username@ip:超算目录   //上传文件夹
scp XXX(文件名) username@ip:超算目录  //上传文件

1337511-20190810103950518-818153410.png
3.putty进入超算项目中存在main函数的目录
如果前台运行,命令是

python main.py

使用前台运行,好处是可以明显看到报错等,问题是长时间不用可能会断……
如果使用后台运行,并把log保存在main.out中:

nohup python -u main.py > main.out 2>&1 &

多回车几次看有没有运行起来,如果没运行起来,即exit了,则

vim main.out

查看哪里报错。
如果是没有环境,这里为了方便环境不会混淆,每个用户都创建不同的环境:

conda create -n xiaoyimin(用户名) python=3.6 pip
pip install xxx(你需要的环境)

这样每次要运行之前需要先进入自己的环境:

conda activate xiaoyimin

如果是楼下的超算,命令是

source activate xym

否则无法使用环境。
不报错,可以实时看结果:

tail -fn 50 main.out

4.如果需要停掉

top  //查看端口数
kill xxx(端口数)  //杀死端口

转载于:https://www.cnblogs.com/xym4869/p/11330940.html

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

<think> 嗯,用户现在想了解个人使用超算服务的方法,这和我之前讨论的超算耗电问题完全不同呢。用户可能是个科研工作者或者学生,刚接触超算领域,需要从最基础的使用流程开始了解。 翻看对话历史,用户之前关注的是超算的耗电问题,现在突然转向使用方式,说明ta的实际需求可能分阶段:先了解宏观特性,再解决实际操作问题。有趣的是,用户特意强调“个人使用”,这个限定词很重要——ta不需要企业级解决方案,而是聚焦个人账户场景。 注意到用户提供的四个引用材料里,[2][3][4]其实已经包含实用线索:[2]展示数据传输命令,[3]是软件安装流程,[4]给出作业脚本样例。这些正好构成个人使用超算的三个核心环节:数据准备→环境配置→任务提交。 用户可能最卡在入门环节,比如如何申请账号、连接方式这些基础操作。考虑到超算平台差异大,我需要区分通用流程和平台特性:通用部分讲清楚SSH连接、模块加载、SLURM提交;平台特性则提示ta查看目标超算的专属文档。 特别要注意的是[4]展示的GPU作业脚本,用户既然保留这个案例,说明ta可能需要GPU资源。不过ta没明确说计算类型,我在回答里应该补充CPU/GPU任务的区分要点。 安全方面也不能忽视,引用[1]提到超算互联网的安全体系,个人使用时尤其要注意密钥管理和数据传输加密。这个点到为止即可,毕竟新手最怕复杂的安全条款。 最后生成的问题要引导用户深入:从监控作业状态到成本控制,都是个人用户实际使用时的痛点。尤其是预算有限的情况下,理解计费方式特别关键——毕竟之前讨论过超算惊人的耗电成本呢。 </think> 以下是针对个人用户使用超算服务的详细指南,结合引用资料的关键操作步骤: --- ### 一、超算服务使用全流程 #### 1. **账号申请与连接** - **Step 1**: 向目标超算中心提交个人账号申请(需提供机构邮箱及研究计划) - **Step 2**: 通过SSH连接超算服务器(引用[2]案例): ```bash ssh username@supercomputer_ip # 例如 scxlab0069@ssh.cn-zhongwei-1.paracloud.com ``` > 首次登录需配置SSH密钥认证增强安全性[^1] #### 2. **环境配置** - **软件安装**(引用[3]方法): ```bash conda create -n myenv python=3.8 # 创建虚拟环境 conda activate myenv mamba install openmc hdf5 parallel # 安装并行计算库 ``` - **模块加载**(超算预装软件): ```bash module load cuda/11.4 gcc/9.3 # 加载GPU编译器 ``` #### 3. **数据传输** - **本地→超算**(引用[2]命令): ```bash rsync -avzP /local/data/ username@supercomputer_ip:/remote/path/ ``` - **云平台→超算**(阿里云案例): ```bash rsync -avz --partial /mnt/data/oss_beijing/user/ user@ip:/target_path/ [^2] ``` #### 4. **任务提交** - **GPU作业脚本**(引用[4]模板): ```bash #!/bin/bash #SBATCH --job-name=MyJob # 任务名称 #SBATCH --nodes=2 # 节点数 #SBATCH --ntasks-per-node=4 # 每节点GPU数 #SBATCH --partition=gpu # 使用GPU分区 #SBATCH --gres=gpu:4 # 每节点4卡GPU #SBATCH --output=%j.log # 日志输出 srun python my_code.py # 并行执行命令 ``` - **提交作业**: ```bash sbatch job_script.sh # 提交SLURM作业 squeue -u $USER # 查看任务状态 ``` --- ### 二、个人用户注意事项 | **环节** | **关键要点** | |----------------|-----------------------------------------------------------------------------| | **资源限制** | 个人账号通常受限:<br>• GPU卡时≤200小时/月<br>• 存储空间≤1TB[^4] | | **成本控制** | 监控资源消耗:<br>`sacct -j <jobid> --format=JobID,Elapsed,AllocCPUs,ReqMem` | | **调试技巧** | 优先使用测试队列:<br>`#SBATCH --partition=debug`(免排队但限时1小时) | | **数据安全** | 敏感数据需加密传输:<br>`rsync -e "ssh -p 22" --progress -avz data.tar user@ip:/path` [^1] | --- ### 三、典型问题解决方案 1. **环境依赖冲突** ```bash # 创建隔离环境 conda env export > environment.yml # 本地导出 conda env create -f environment.yml # 超算重建 ``` 2. **作业排队过长** • 使用弹性资源策略: ```bash #SBATCH --qos=flexible # 可接受资源动态调整 ``` 3. **数据传输中断** • 启用断点续传: ```bash rsync --partial --progress -avz /data user@ip:/path [^2] ``` > **核心建议**:首次使用建议申请超算中心的**新手训练营**(通常免费提供10小时指导上机)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值