自己的电脑配置有限的话,可以尝试使用深度学习云服务器训练模型
深度学习云服务器链接:趋动云
蓝耘:蓝耘
DA model:DAMODEL
注册后可免费获得一些算力额度(蓝耘和DAMODEL50点,趋动云20点),然后开始环境配置,环境配置非常简单。
不同服务器的配置方式大同小异
1 创建项目
在主页右上角点击创建项目
输入项目名
进入初始化开发环境
资源配置中是CPU和GPU的规格,根据自己的需求选择 (模型的大小、数据集的规模)
添加镜像 ,同样是根据自己的需求(使用哪种深度学习框架和框架版本、CUDA版本)

添加数据,若没有数据需要先创建数据 ,创建完毕后上传数据
对于较大的数据集,建议使用SFTP传输
可以查看下面的SFTP使用指南,我这里使用WinSCP作为传输工具
强烈建议:尽量将要上传的文件打包成zip(进入开发环境后解压),不要上传文件夹
上传文件夹会导致上传速度很慢

其中,传输地址对应的是主机名
将你想上传的文件/文件夹拖拽到右半部分即可
上传完成后保存,然后上传代码

可选择网页上传或SFTP
2 环境配置
选择好资源配置、镜像和数据集后,启动环境
你上传的数据集和代码的位置如下图所示
若你上传的是压缩文件,则可以在命令行中进入到该文件所在目录,输入以下指令解压文件(以zip文件为例)
unzip filename
完成后开始配置环境,建议先pip换源
pip config set global.index-url https://pypi.mirrors.ustc.edu.cn/simple
pip install package
自行修改代码和参数,然后可以开始在命令行执行训练了
3 退出
环境启动期间会一直消耗算力点,不再使用项目时,需要将环境镜像保存后停止环境
建议一次性就将环境配置好,避免多次修改环境后重复构造镜像
趋动云服务器也可支持SSH远程连接和离线训练
4 离线训练
08.14 2024更新
在项目界面,点击训练
然后点击右上角的提交任务
依次填写任务名、选择挂载code和dataset、资源配置、填写启动命令、选择环境镜像
需要注意的是:启动命令有多种方式
#存储路径未使用环境变量的启动命令
python3 /gemini/code/train_images.py --mode train --model mobileNet --num_epochs 1 --batch_size 8 --data_dir /gemini/data-1/DogsvsCats --train_dir /gemini/output
#存储路径使用环境变量的启动命令
python3 $GEMINI_RUN/train_images.py --mode train --model mobileNet --num_epochs 1 --batch_size 8 --data_dir $GEMINI_DATA_IN1/DogsvsCats --train_dir $GEMINI_DATA_OUT
或者按照自己的方式
cd /path/to/code
python train.py
训练输出路径务必设置为/gemini/output
训练进行时或训练完成后,可以点击任务详情查看训练输出
补充说明
08.26 2024 更新
在趋动云中,不可将项目中某一文件夹直接下载到本地
建议先将文件夹压缩,完成后在项目代码界面可直接下载
zip -r archive-name.zip /path/to/directory
09.13 2024 更新
对于离线训练输出的结果,可以使用tensorboard可视化
点击可视化
在右侧可修改要可视化的输出,和任务配置(用最小规格的就行)
查看可视化结果
查看过后,不要忘了关闭可视化,以免浪费算力
如何在命令行中使用指令完成各类操作?Ubuntu中常用的操作指令-优快云博客