实验室gpu服务器集群 使用方法探索

本文档详述了实验室GPU服务器集群的使用方法,包括普通用户如何申请账号、连接互联网、管理文件、提交作业,以及管理员如何创建用户。介绍了镜像上传、封装,以及使用Jupyter和PyCharm连接服务的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章主要介绍实验室GPU集群服务器的使用方法,具体可以参考官方手册SitonHoly Cluster Manager Platform(SCM)用户手册。如有雷同,请联系作者删除。

此教程仅适用于scm2.0以下版本,有可能系统已经进行了升级(2020年7月以后),针对新版本,请读者自行探索。

目录

目录

普通用户:

一 向管理员申请账号

二 服务器连接互联网

三 文件管理

四 镜像管理

上传镜像:

镜像封装:

五 作业提交

1 提交tensorflow作业 test

2 pycharm 连接服务

3 使用 Jupyter连接服务

管理员:

一 创建用户

创建系统远程用户:



普通用户:

一 向管理员申请账号

包括网页端的账号、harbor账号、系统层面用于制作镜像的ssh远程账号。

二 服务器连接互联网

最近找到一个docker的无头浏览器镜像,操作很简单,在自己电脑的浏览器上打开 服务器ip:端口号(比如 219.216.99.4:6901),即可进入一个界面(密码 vncpassword),打开这个界面内置的浏览器Chrome,按正常上网的方式登录校园网的网关就行了。如果不会请咨询管理员。

一个人登录后服务器所有用户都可上网,请注意流量消耗。

三 文件管理

参考思腾合力 文件管理 文档。

登录服务器

1 档案上传

文件管理里面,新建一个文件夹,点击右上角的 “档案上传”,选择需要上传的文件然后点击上传即可。

注意:这里只可以上传单个文件,不可以上传文件夹,可以上传压缩包后通过网页端进行解压。

2 文件下载

可以直接使用下载按钮下载单个文件

如果需要下载文件夹,启动一个作业(分配尽可能少的计算资源,1核CPU,0张显卡,2G内存),使作业处于空跑状态(执行命令 sleep infinity), 进入作业的详细界面,“网页ssh”,修改镜像密码 (passwd), -> 使用自己电脑远程登录镜像(ssh -p ssh端口号 root@服务器ip),文件在 /root/data/...,-> 使用scp命令即可远程下载。

四 镜像管理

参考思腾合力 镜像管理文档。

上传镜像:

  1. 命令行远程登录系统,通过groups指令查看是否加入docker组
  2. 网页端镜像管理里面新建自己的项目

  3. 命令行登录自己的harbor 镜像仓库,输入对应的harbor用户名和密码。(192.168.137.10:8888是harbor仓库的地址,自己对应着修改。通常为服务器ip8888号端口(ip:8888))
    docker login 192.168.137.10:8888

  4. 可以使用 docker search 搜索需要的镜像
    docker search tensorflow-gpu   #比如搜索gpu版的tensorflow

  5. 使用 docker pull 拉取镜像,如果本地没有,会从docker hub仓库中寻找(如果服务器没有连互联网,就需要通过其他方式拉取)
    docker pull walker519/cuda_python_tensorflow-gpu:9.0_3.5_1.12.0 
    

     

  6. 使用 docker images 查看本地已经拉取过的镜像
    docker images

  7. 将镜像推送到自己的harbor镜像仓库

    在自己的项目里面有一个推送镜像:

    先给镜像打标签后推送到当前项目
    docker tag walker519/cuda_python_tensorflow-gpu:9.0_3.5_1.12.0 192.168.137.10:8888/27_test/cuda_python_tensorflow-gpu:9.0_3.5_1.12.0
    docker push 192.16
### 如何在实验室服务器上部署大型机器学习模型 #### 选择合适的硬件资源 对于大规模机器学习模型的部署,确保有足够的计算资源至关重要。这通常意味着拥有高性能CPU、大量内存以及可能还需要GPU支持来加速推理过程[^1]。 #### 准备环境与依赖项安装 为了使模型能够在目标环境中正常运行,需先设置好相应的软件栈并安装必要的库文件。如果是在Linux环境下操作,则可以考虑使用Anaconda管理Python版本及其包;而对于特定框架如TensorFlow或PyTorch来说,官方文档会提供详细的指导说明关于如何配置开发/生产环境[^2]。 #### 封装模型为可执行单元 为了让其他应用程序能够调用已训练好的模型来进行预测工作,应该将其打包成易于集成的形式。一种常见的方式就是创建RESTful API接口服务——比如借助Flask/Django这样的Web框架实现HTTP请求处理逻辑,并通过gunicorn/uWSGI等工具提升性能表现。另外也可以采用专门用于发布ML模型的服务端解决方案,像TensorFlow Serving就非常适合用来分发经过优化后的PB格式保存下来的图结构数据。 #### 自动化流程构建持续交付管道 当涉及到频繁更新迭代时,建立CI/CD流水线变得尤为重要。Jenkins、GitLab CI或是GitHub Actions都可以帮助自动化整个从源码提交到最终上线的过程,包括但不限于自动测试、镜像构建推送至容器仓库(Docker Hub)、Kubernetes集群中的应用部署等一系列任务。这样不仅提高了工作效率还减少了人为错误的发生几率。 ```bash # 安装 Docker 和 Kubernetes (Minikube) sudo apt-get update && sudo apt-get install docker.io minikube kubectl -y minikube start --memory='4096MB' --cpus='4' ``` #### 部署策略的选择 考虑到实际应用场景下的流量波动情况,可以选择不同的部署模式以满足业务需求。蓝绿部署是一种较为保守的方法,它允许新旧两个版本同时在线供部分用户访问直至确认无误后再全面切换过去;而金丝雀发布则更进一步实现了按比例分流的效果,有助于逐步验证变更影响范围最小化风险。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值