
集群服务器
文章平均质量分 64
此专栏记录服务器集群的相关问题
凌漪_
凛冬水波
展开
-
vllm报错out of memory解决
通过调低–gpu-memory-utilization的比例(默认为0.9),可以避免此问题。原创 2024-06-12 16:22:55 · 5111 阅读 · 0 评论 -
如何在huggingface上申请下载使用llama2/3模型
huggingface-cli download --resume-download 模型名称 --local-dir 存放模型的位置 --local-dir-use-symlinks False --resume-download --token token序列号xxxxxxx。登录huggingface,在模型详情页面上,找到这个表单,填写内容,提交申请。需要使用梯子,country填写梯子的位置吧(比如美国)等待一小时左右,会有邮件通知。原创 2024-05-12 19:14:31 · 12619 阅读 · 17 评论 -
如何把服务器代码上传至github
本教程适用于已经在服务器上下载好了git并和github账号进行关联,如果没有请先移步至。原创 2024-01-04 04:50:41 · 1209 阅读 · 1 评论 -
【常用bsub指令介绍】使用bsub命令提交作业、开启交互式窗口,在集群服务器上用pdb进行代码调试
在一个服务器集群中,有很多的人要使用,却只有很少的GPU。LSF作业调度系统则是对每个用户提交的作业和需要使用的GPU进行调度。一般使用bsub命令来将待运行的作业提交到集群上。用bsub < run.sh提交了作业,一般是作业已经可以成功跑起来,提交了作业后直接等作业运行结束就行。但更多时候我们的代码可能会出现报错,需要进行调试。一般情况下,我们会用pychram/ vscode等软件对代码打断点,进行调试。但使用的是本地的CPU资源,而不是服务器上的GPU。原创 2023-12-27 05:51:10 · 12236 阅读 · 0 评论 -
【超简易安装】在linux集群服务器上使用conda安装高版本cuda(cuda-11.8)和pytorch2.0
由于项目代码要求pytorch2.0版本,而pytorch2.0版本需要cuda11.8,高于我之前的11.0的cuda版本。因此考虑使用conda新建一个虚拟环境,在里面使用高版本的cuda和pytorch。原创 2023-12-10 03:41:25 · 4703 阅读 · 7 评论 -
【已解决】如何在服务器中下载huggingface模型,解决huggingface无法连接
在服务器上使用huggingface模型时,如果直接指定模型名称,用AutoTokenizer.from_pretrained(“model_name”),可能会由于网络原因会报错 Failed to connect to huggingface.co port 443 after 75018 ms: Operation time out因此我们需要下载模型到服务器上,得到模型本地的路径model_dir,再通过AutoTokenizer.from_pretrained(model_dir)方式来使用。原创 2023-12-08 21:49:26 · 36735 阅读 · 45 评论 -
【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息
nvidia-smi报错command not found,如何在集群服务器上查看gpu信息原创 2023-07-19 02:00:54 · 11110 阅读 · 4 评论 -
【已解决】conda install报错 An HTTP error occurred when trying to retrieve this URL. 更换清华源也无效
如果添加清华源之后,conda install依然报网络问题,可以选择把默认源删除。原创 2023-04-25 21:02:01 · 1557 阅读 · 0 评论 -
在服务器上git clone github项目的过程
在服务器上与本地clone项目对比还是有点区别的,主要在于git安装下载的权限不足,还有生成SSH key的步骤。一 安装git1.作为服务器上的非root用户,下载git安装包。(这里的版本是2.24.1,可以参考官网更换为更高版本号的git wget https://github.com/git/git/archive/v2.24.1.tar.gz -O git.tar.gz2.解压tar -zxvf git.tar.gz3.接着运行下面这些代码./configure cd gi原创 2021-12-30 02:22:58 · 9503 阅读 · 2 评论 -
在服务器上下载anaconda,配置pytorch的过程 [CUDA11.4],以及使用pychram连接服务器
服务器上anaconda下载及pytorch配置过程 本文介绍利用mobaXterm连接服务器,再下载anaconda,配置Pytorch的过程,下载过程中经常有报错,踩了一些坑。本文是回忆文,可能有些步骤忘记了,可以再看看。1. 登录服务器,下载anaconda先打开mobaXterm,打开session连接服务器。如果是第一次登录的话,可以点击左上角的session - SSH, 输入端口号,用户名,在命令行中输入密码。(1)下载anaconda先在[清华镜像源][https://mirr原创 2021-11-20 15:12:09 · 10486 阅读 · 11 评论