一、模型训练的构成
1. 本地搭建一个模型训练环境,都需要些什么?

2. 环境准备的痛点
成本问题
- 购买高性能显卡,成本高且利用率不高
维护问题
- 硬件机器、软件环境构建和维护都会花费不少时间成本
容量问题
- 对于大模型,受限于显卡容量
二、本地化问题及解决方案
痛点解决方案:
- 使用GPU云环境
优点:
-
成本低
- 通过租用GPU云环境,可以做到按使用量付费,不使用就关闭环境,避免购买机器费用和折旧费
-
维护简单
- GPU云环境一般都预制了适用于训练的环境
- 例如:Ubuntu、Python、 Pytorch、CUDA等,用户只需关注自己任务的训练
-
灵活度高
- 对显存要求高的场景,可以灵活扩展GPU显存,以满足需求
三、GPU云环境的使用方法
GPU云方案对比

通用流程:
1. 登录服务
2. 检查环境
3. 准备训练框架
4. 准备训练数据
5. 准备训练脚本
6. 训练
阿里云使用方法
注册账号
- 访问 ModelScope , 按照提示,完成魔搭社区账号的注册。
- 访问 阿里云, 按照提示,完成阿里云账号的注册。
- 在魔搭社区绑定阿里云,可以获得一些免费GPU算力。
使用方法
1. 登录服务
登录魔搭社区,切换至我的Notebook→选择PAI-DSW服务→GPU环境→启动。


最低0.47元/天 解锁文章
515

被折叠的 条评论
为什么被折叠?



