使用恒源云GPU进行远程训练

最近同学参加比赛需要使用云GPU,经过比对多个云GPU平台,从价格和GPU可用稳定性上,最终选择了恒源云,我购买使用了一下,可以支持一场Kaggle比赛或者实验论文没有问题,大家可以按照步骤进行操作,记录下来,其他平台也差不多。

1.创建实例

恒源云提供的GPU很多,从单卡到多卡价格不等,经常有特惠价格:

image-20230721170948537

这里考虑性价比,以A5000单卡为例:

image-20230721170312101

购买时候我选择的镜像是Pytorch1.8版本,购买实例后,实例就启动了

image-20230721171433065

2.Pycharm远程连接GPU

2.1配置远程文件连接

个人习惯是在本地Pycharm上编写代码,然后使用云GPU运行代码。注意哦,只有Professional版本才支持远程开发功能

打开Pycharm,工具->部署->配置

image-20230721171750330

点击添加按钮,选择 SFTP,给连接自己起个名字,我这里是"恒源云A5000"

image-20230721171914392

点击连接,浏览连接

image-20230721172225270

新建一个SSH配置,因为我们是使用SSH从本地连接恒源云服务器。

image-20230721172337086

恒源云 gpushare.com 我的实例 中点击复制登陆指令,就是下图1处。

image-20230721171433065

如我的是:ssh -p 1066 root@i-1.gpushare.com,从中提取信息:

主机名端口号用户名
i-1.gpushare.com1066root

将信息填写在 SSH 配置中,并从 我的实例 中点击复制密码填写到 Password 字段。

image-20230721172739094

点击 Test Connection 按钮测试连接。

image-20230721172807187

2.2 配置远程解析器

文件->配置

image-20230721173143975

新增Python解释器

左侧选择 SSH Interpreter。右侧选择现有服务器配置,选择上一步创建的 SSH 连接。点击 下一步。

image-20230721173411965

点击下一步以后,配置远程服务器和本地项目文件夹之间的映射:

image-20230721230405234

解析器已经切换为了刚配置的远程解析器,点击 OK 开始同步,等待下方状态栏完成配置与同步。

image-20230722002809499

在右下角状态栏会显示远程 Python 解析器。此时运行代码为在远程主机上运行。

image-20230721230725902

可以看到,配置好后,马上就自动上传本地源代码到远程服务器上,等进度完成,代码就上传完毕,后面当你在本地改代码完成保存后,代码也会自动同步。

image-20230721231003619

3.Xshell访问恒源云GPU Linux服务器

Xshell是一个开源免费的远程工具。

打开会话窗口新建一个会话。

image-20230721224323579 image-20230721224717708

切换到 用户名身份验证 标签页,用户名填写 root,密码在 我的实例 中复制。点击 确定 保存。

image-20230721224753494

会话 中选择刚创建好的会话,点击 连接 进入实例。

image-20230721225603937 image-20230721225654530

4.登录恒源云存储上传和下载文件

参考链接:https://gpushare.com/docs/data/upload/

4.1 OSS命令

上传:

# 查看命令帮助
~# oss help
# 登陆恒源云账号,使用恒源云的账号名与密码,账号名为手机号
# 如果是非中国大陆手机号码,需要加上带 + 的区号
~# login
Username:136**********
Password:*************
13638731747 login successfully!

#在个人数据中创建文件夹
~# oss mkdir oss://datasets
Create folder [oss://] successfully, request id [0000017E0091FBEC9012CBB9E0EBBCE1]
Create folder [oss://datasets/] successfully, request id [0000017E0091FC1D9012CC094BBD9AF3]

#将本地电脑的 "个人数据.zip" 上传至平台个人数据中的 `datasets` 文件夹下
~# oss cp 个人数据.zip oss://datasets/

#查看我上传的 个人数据.zip
~# oss ls -s -d oss://datasets/
Listing objects .
Folder list:
oss://datasets/
Object list:
oss://datasets/个人数据.zip
Folder number is: 1
File number is: 1

4.2 FIleZilla客户端连接站点

站点管理器中新建站点,填写服务器信息后,就可以连接,通过拖拽上传下载服务器文件

恒源云是一个云平台,提供了便捷的环境和资源来进行机器学习任务的训练。而PyCharm是一个常用的Python集成开发环境(IDE),可以方便地进行代码编辑、调试和管理。 要在恒源云使用PyCharm进行训练,首先需要在恒源云平台上创建一个实例。在实例创建完成后,可以通过远程连接工具(如SecureCRT)连接至实例。 接下来,在实例中安装和配置PyCharm。可以通过命令行或者通过恒源云控制台提供的“自定义镜像”功能,下载和安装PyCharm软件。 安装完PyCharm后,打开PyCharm界面,点击“Open”按钮选择保存训练代码的文件夹,或者创建一个新项目。 在PyCharm中,可以创建一个Python文件,编写训练代码。通过导入必要的机器学习相关库和数据预处理,来构建训练模型。可以使用PyCharm内置的调试工具来检查代码的运行状态,并对代码进行调试。 在配置好训练代码后,可以使用恒源云平台提供的资源(如GPU、CPU)来运行代码进行训练。通过PyCharm的运行按钮(或快捷键),执行代码并进行训练训练过程中,可以通过PyCharm的控制台输出信息和图形界面,查看训练过程中的各项指标和图像,以及调试信息和错误提示。 训练完成后,可以保存训练模型,或者在恒源云平台上下载模型和训练结果。 总结来说,使用恒源云进行机器学习训练需要在恒源云平台上创建实例,安装和配置PyCharm,在PyCharm中编写训练代码,通过PyCharm的调试工具调试代码,使用恒源云的资源进行训练,最后保存训练模型和结果。这样就能很方便地在恒源云使用PyCharm进行训练
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值