MMSegmentation 预训练模型推理指南：从入门到实践

倪姿唯Kara

于 2025-06-05 09:00:09 发布

阅读量348

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01137/article/details/148439818

MMSegmentation 预训练模型推理指南：从入门到实践

mmsegmentation OpenMMLab Semantic Segmentation Toolbox and Benchmark. 项目地址: https://gitcode.com/gh_mirrors/mm/mmsegmentation

前言

语义分割是计算机视觉领域的重要任务，旨在为图像中的每个像素分配类别标签。MMSegmentation 作为一款强大的语义分割工具箱，提供了丰富的预训练模型和便捷的推理接口，帮助开发者快速实现语义分割功能。本文将详细介绍如何使用 MMSegmentation 进行图像语义分割推理。

一、推理器：最便捷的推理方式

MMSegmentation 提供的 MMSegInferencer 是一个高级接口，封装了模型加载、预处理、推理和后处理的完整流程，让开发者能够用最少的代码实现语义分割功能。

1.1 基础使用示例

from mmseg.apis import MMSegInferencer

# 初始化推理器（自动下载预训练模型）
inferencer = MMSegInferencer(model='deeplabv3plus_r18-d8_4xb2-80k_cityscapes-512x1024')

# 单图推理并显示结果
inferencer('demo/demo.png', show=True)

执行上述代码后，你将看到原始图像与分割结果的叠加显示，不同语义类别会以不同颜色区分。

1.2 批量处理能力

MMSegInferencer 支持多种输入形式：

# 处理图像列表
images = ['img1.jpg', 'img2.jpg', ...]
inferencer(images, show=True, wait_time=0.5)

# 处理整个目录
image_dir = 'path/to/images'
inferencer(image_dir, show=True, wait_time=0.5)

# 保存结果到指定目录
inferencer(images, out_dir='outputs', img_out_dir='vis', pred_out_dir='pred')

1.3 结果输出格式

推理器提供两种结果返回方式：

# 默认返回字典格式
result = inferencer('demo.png')
print(result.keys())  # 输出: dict_keys(['visualization', 'predictions'])

# 返回SegDataSample对象（更丰富的结构化数据）
result = inferencer('demo.png', return_datasamples=True)
print(type(result))  # 输出: <class 'mmseg.structures.seg_data_sample.SegDataSample'>

二、高级配置选项

2.1 初始化参数详解

MMSegInferencer 提供了多种初始化选项以满足不同需求：

inferencer = MMSegInferencer(
    model='模型名称或配置对象',
    weights='自定义权重路径',  # 可选
    classes=['道路', '建筑', '天空'],  # 自定义类别标签
    palette=[[128,64,128], [70,70,70], [70,130,180]],  # 自定义颜色
    dataset_name='cityscapes',  # 使用预设的类别和配色
    device='cuda:0',  # 指定计算设备
    scope='mmseg'  # 模型作用域
)

2.2 可视化控制参数

推理时可以通过以下参数控制结果展示：

inferencer(
    'demo.png',
    show=True,  # 是否显示结果
    wait_time=0.5,  # 显示间隔时间（秒）
    img_out_dir='vis',  # 可视化结果保存子目录
    opacity=0.6  # 分割掩膜透明度（0-1）
)

三、底层API详解

对于需要更精细控制的场景，MMSegmentation 提供了底层API。

3.1 模型初始化

from mmseg.apis import init_model

# 基本初始化
model = init_model(
    config='configs/pspnet/pspnet_r50-d8_4xb2-40k_cityscapes-512x1024.py',
    checkpoint='checkpoints/pspnet_r50-d8_512x1024_40k_cityscapes.pth',
    device='cuda:0'
)

3.2 执行推理

from mmseg.apis import inference_model

result = inference_model(model, 'demo.png')

返回的 SegDataSample 对象包含丰富信息：

pred_sem_seg: 预测的分割掩膜
seg_logits: 模型原始输出（未归一化的logits）
其他元数据和标注信息（如有）

3.3 结果可视化

from mmseg.apis import show_result_pyplot

# 基础可视化
vis_img = show_result_pyplot(
    model, 
    'demo.png', 
    result,
    opacity=0.5,
    title='分割结果'
)

# 保存结果
show_result_pyplot(
    model,
    'demo.png',
    result,
    out_file='output/result.png',
    show=False  # 不显示窗口
)

四、实用技巧与最佳实践

模型选择建议：
- 对于实时应用：选择轻量级模型如FastSCNN
- 对于高精度需求：选择DeepLabV3+或MaskFormer
- 特定场景：使用在该场景数据集上训练的专用模型
性能优化：
- 使用半精度推理（FP16）加速计算
- 批量处理图像提高吞吐量
- 合理设置opacity值平衡可视化效果
结果解析：
- 预测结果是每个像素的类别索引
- 需要配合类别标签才能得到有意义的语义信息
- 可使用argmax从seg_logits得到最终预测