在ModelArts上部署项目

最新推荐文章于 2025-04-02 10:22:30 发布

柠枝公子

最新推荐文章于 2025-04-02 10:22:30 发布

阅读量5.6k

点赞数 1

本文链接：https://blog.youkuaiyun.com/weixin_43930980/article/details/106537057

版权

本文详细介绍如何在ModelArts平台上实现图像分类项目的训练、推理代码编写及模型部署上线全流程，涵盖PyTorch环境下训练代码编写、推理代码及配置文件准备，并分享实战经验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

默认已完成modelarts的注册登录以及秘钥设置。以图像分类项目为例(我用的是pytorch，就拿pytorch来说明)

一、编写训练代码(如果有训练好的模型就可以跳过这一步)

1、使用modelarts提供的notebook开发环境进行训练

把训练所需要的数据传到桶中，如果数量较多建议先压缩，往桶中传压缩包。可以使用OBS Browser+进行批量上传。
在开发环境中创建并运行一个notebook环境,存储配置选择OBS中数据所在的位置。
新建一个ipynb文件，选择适合的引擎。
把训练需要的数据进行同步。
在notebook中可以查看当前的工作路径以及刚刚同步好的数据压缩包

解压(按照自己的需求进行修改)

import zipfile
def unzip_file(zip_src,dst_dir):
    r=zipfile.is_zipfile(zip_src)
    if r:
        fz=zipfile.ZipFile(zip_src,'r')
        for file in fz .namelist():
            fz.extract(file,dst_dir)
        else:
            print('This is not zip')
current_path = os.getcwd()
unzip_file(os.path.join(current_path+'/1-11.zip'),os.path.join(current_path+'/train'))
unzip_file(os.path.join(current_path+'/12-25.zip'),os.path.join(current_path+'/train'))
unzip_file(os.path.join(current_path+'/26-41.zip'),os.path.join(current_path+'/train'))

用其他的方法也能达到同步数据的效果，可在modelarts的官方文档中查看

编写训练代码(Github上找找)

保存训练模型到obs

torch.save(model.state_dict(), 'model.pt')

from modelarts.session import Session
session=Session()
session.upload_data(bucket_path="/桶名称/具体路径",path="/home/ma-user/work/model.pt")

2、使用PyCharm ToolKit插件利用pycharm进行训练

这部分我翻车了，诸君加油~，我择日再踩坑。

二、编写推理代码和配置文件

在modelarts上部署上线，需要按照要求把模型、推理代码、配置文件放在一起，详细要求以官方文档为准。仍旧以pytorch为例，将需要的文件放在model文件夹下，如下图所示：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XSYMLuwQ-1591207750229)(./模型包.png)]

1、推理代码(我还是以pytorch说明的，其他情况看官方文档)

官方给出了使用MNIST数据集的一个推理代码，我们在它的基础上进行修改，主要是对输入的数据进行处理，使他适合模型的输入，：

from PIL import Image
import log
from model_service.pytorch_model_service import PTServingBaseService
import torch.nn.functional as F

import torch.nn as nn
import torch
import json

import numpy as np

logger = log.getLogger(__name__)

import torchvision.transforms as transforms

# 这一部分也还是根据个人需求进行修改的，直接删了也不影响，你也不一定会用到这个处理方式，看个人。

# 定义模型预处理
infer_transformation = transforms.Compose([
    transforms.Resize((28,28)),
    # 需要处理成pytorch tensor
    transforms.ToTensor()
])


import os


class PTVisionService(PTServingBaseService):

    def __init__(self, model_name, model_path):
        # 调用父类构造方法
        super(PTVisionService, self).__init__(model_name, model_path)

        # 调用自定义函数加载模型
        # 要是把最后面的函数名改了，这里也要改的。
        self.model = Mnist(model_path)

        # 加载标签 根据自己的模型进行修改
        self.label = [0,1,2,3,4,5,6,7,8,9]
        
        #我是初学者，不会整什么幺蛾子，没用下面的这个，直接给删了。
        # 亦可通过文件标签文件加载
        # model目录下放置label.json文件，此处读取
        dir_path = os.path.dirname(os.path.realpath(self.model_path))
        with open(os.path.join(dir_path, 'label.json')) as f:
            self.label = json.load(f)

    #按照自己训练模型中的数据处理方式去处理数据
    #我没啥好办法，只能写一次，拿上去尝试部署上线一次，然后看日志报错接着改。
    def _preprocess(self, data):

        preprocessed_data = {}
        for k, v in data.items():
            input_batch = []
            for file_name, file_content in v.items():
                with Image.open(file_content) as image1:
                    # 灰度处理
                    # 很明显image1就是图片，按照训练代码中的要求转换为tensor
                    image1 = image1.convert("L")
                    if torch.cuda.is_available():
                        input_batch.append(infer_transformation(image1).cuda())
                    else:
                        input_batch.append(infer_transformation(image1))
            input_batch_var = torch.autograd.Variable(torch.stack(input_batch, dim=0), volatile=True)
            print(input_batch_var.shape)
            preprocessed_data[k] = input_batch_var

        return preprocessed_data
    #根据模型返回的数据判断类别(参照训练时计算acc和loss的那一部分代码)，把要输出的结果append到results中
    def _postprocess(self, data):
        results = []
        for k, v in data.items():
            result = torch.argmax(v[0])
            result = {k: self.label[result]}
            results.append(result)
        return results

#参考自己的神经网络结构，直接从训练代码中复制过来替换这一部分，调用的时候注意一下就行
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.hidden1 = nn.Linear(784, 5120, bias=False)
        self.output = nn.Linear(5120, 10, bias=False)

    def forward(self, x):
        x = x.view(x.size()[0], -1)
        x = F.relu((self.hidden1(x)))
        x = F.dropout(x, 0.2)
        x = self.output(x)
        return F.log_softmax(x)


#这部分基本不用改，要是看着函数名字难受可以给改了
def Mnist(model_path, **kwargs):
    # 生成网络
    model = Net()
    # 加载模型
    if torch.cuda.is_available():
        device = torch.device('cuda')
        model.load_state_dict(torch.load(model_path, map_location="cuda:0"))
    else:
        device = torch.device('cpu')
        model.load_state_dict(torch.load(model_path, map_location=device))
    # CPU或者GPU映射
    model.to(device)
    # 声明为推理模式
    model.eval()

    return model

需要改的地方：