背景
随着深度学习框架应用(如YOLO)以及大模型的微调,租用GPU云环境是一种低成本、灵活性高的方案。本章将介绍众多云服务商中的两个选择:阿里云和趋动云。
模型训练的环境
从软硬件维度来看,训练模型一般需要准备的内容如下:
- 硬件:一般需要高性能的GPU显卡,目前主流的有:RTX 4090D、A100等等
- 操作系统:目前较为主流的是使用
Ubuntu
系统。 - 编程语言:目前主流是使用
Python
。 - 科学计算:目前主流是使用
PyTorch
。 - 并行计算:搭配Nvidia显卡使用的并行计算平台是
CUDA
。 - 训练框架:根据训练的任务而选择,目标检测类的主要是
YOLO
,大模型方向有LLamaFactory
等。
环境准备的痛点
通过上述的罗列,我们可以看到进行深度学习的环境准备还是比较多的问题:
- 成本问题:购买高性能显卡,成本高且利用率不高。
- 维护问题:无论是从硬件机器的维护,还是到软件环境的构建和维护,都会花费不少的时间成本。
- 容量问题:对于大的模型,普通的家用4090D显卡,受限于显卡容量,无法满足。
痛点解决方案
针对以上的痛点问题,租用GPU云环境是一种低成本、灵活性高的方案。它具有的特点:
- 成本低:通过租用GPU云环境,可以做到按使用量付费,不使用就关闭环境,避免了购买机器的费用以及折旧费用。
- 维护简单:GPU云环境一般都预置了适用于训练的环境,例如:Ubuntu、Python、PyTorch、CUDA等,用户只需关注自己任务的训练即可。
- 灵活度高:对于显存要求高的场景,可以灵活地扩展GPU显存,以满足需求。
GPU云环境方案对比
特性 | 阿里云 | 趋动云 |
---|---|---|
价格 | 14元/小时(最低配置) | 0.99元/小时(学习使用的medium配置) |
优惠策略 | 新用户100小时免费GPU算力 限时3个月的5000算力资源 | 新用户注册赠送70算力时 |
便捷性 | 支持root命令,拉取外部数据和代码方便,扩展性高 | 提供了丰富的交于UI, 端口对外映射方便,支持离线训练 |
不足 | 服务器关闭后,数据无法持久化存储(关联阿里云账号并授权后,可以持久化保存) | 模型和数据需要按照官方提供的方法上传,root、docker等命令没有权限使用,灵活性较不足 |
阿里云使用方法
注册账号
- 访问http://modelscope.cn/, 按照提示,完成魔搭社区账号的注册。
- 访问https://www.aliyun.com/, 按照提示,完成阿里云账号的注册。
领取优惠券
目前阿里云有两个优惠可以领取:
- 优惠一:在魔搭社区绑定阿里云,可以获得100小时免费GPU算力。
- 优惠二:在阿里云官网领取新手保护期的5000算力。
优惠一领取方法:登录魔塔社区后,按照如下提示操作,领取优惠。
领取成功之后
优惠二领取方法:
- 访问https://free.aliyun.com/
- 筛选
人工智能与机器学习
,按照如下图示领取优惠。