图像分割是通过算法预测目标轮廓,将图像像素划分为不同类别的任务,属于细粒度分类。例如,在医疗影像中区分肿瘤与健康组织,或在自动驾驶中识别车道线与障碍物。
应用场景
人像抠图:移除背景保留人物(如Photoshop抠图、虚拟换装)。
医学影像:肿瘤检测(如CT/MRI中的病灶区域标注)。
遥感分析:卫星图像中的土地分类(农田、森林、水域)。
自动驾驶:道路/行人/车辆实时检测(需低延迟与高精度)。
工业质检:材料缺陷定位(如芯片制造中的微裂纹识别)。
图像分割核心概念
物体与事物
物体(Things):可数的独立目标,如行人、汽车,通常需要区分个体(实例分割)。
事物(Stuff):不可数的背景元素,如天空、草地,关注语义类别而非个体(语义分割)。
三层境界
语义分割
输出:单通道掩膜图(如Cityscapes中每个像素标注"道路"或"建筑")。
任务:区分不同语义类别,不关心具体实例。
案例:自动驾驶中识别"路面"与"障碍物"。
实例分割
输出:多通道掩膜图(每类一个通道,每个实例独立ID)。
任务:同时识别类别、边界框和个体ID。
案例:医疗影像中标记多个肿瘤实例(ID1=左肺结节,ID2=右肺结节)。
全景分割
输出:两通道信息(语义标签+实例ID),融合语义与实例分割。
任务:既区分"草地"与"树木",又为每棵树分配唯一ID。
案例:自动驾驶场景中同时识别"路灯"(语义)和"第3号路灯"(实例)。
图像分割数据集
VOC数据集
领域:通用物体检测与分割。
标注细节:
如2012年版本:20类语义标签(如"人"、"车"),5k+实例。
实例分割标注:使用边框(bbox)和像素级掩膜。
挑战:小目标密集场景(如人群)的分割精度较低。
Cityscapes数据集
领域:城市街景理解。
标注特点:
精细标注:30类(如"交通标志"、"人行道"),5k张高清图。
粗略标注:2万张图用于训练效率提升。
应用场景:自动驾驶环境感知训练。
COCO数据集
领域:复杂日常场景。
核心优势:
91类标注(含80个"通用物体"类),82类≥5k实例。
实例分割标注:涵盖遮挡、多样姿态等问题。
典型案例:Mask R-CNN在此数据集上的mAP达到38.6%。
图像分割评估指标
像素级指标
Pixel Accuracy (PA)
公式: PA = 正确像素数 / 总像素数
局限性:忽略类别不平衡(如多数像素为背景)。
Mean Pixel Accuracy (mPA)
公式: mPA = Σ(正确类像素数 / 该类总像素数) / 类总数
优势:对少数类更敏感。
区域级指标
IoU(Intersection over Union)
公式: IoU = 预测∩真实 / (预测∪真实)
目标:衡量预测区域与真实区域的重叠程度。
通常阈值≥0.5视为合格分割。
mIoU(Mean IoU)
计算:逐类计算IoU后取平均。
COCO官方比赛采用mIoU作为核心指标(如2023年目标检测mIoU达52.5%)。
FWIoU(Frequency-Weighted IoU)
公式: FWIoU = Σ(频率_N * IoU_N) / Σ频率_N
频率:某类在数据集中出现的概率。
优势:缓解类别不平衡问题(如Cityscapes中"道路"占比40%)。
图像分割网络架构
经典模型演进
FCN(Fully Convolutional Network)
结构:编码器(CNN下采样)→ 解码器(反卷积上采样)。
缺陷:分辨率损失严重,边缘细节模糊。
U-Net
创新:编码器+解码器+跳跃连接(对称结构)。
应用:医学影像(如脑部肿瘤分割),Dice系数达0.9以上。
Mask R-CNN
思路:Faster R-CNN框架 + 分支预测掩膜。
关键:RoI Align(区域提议与特征对齐)。
性能:COCO实例分割mAP达38.6%。
DeepLab系列
核心:空洞卷积(扩大感受野)+ 多尺度特征融合。
最新版本:DeepLabv6结合视觉Transformer(ViT)提升分割精度。
关键技术
转置卷积 vs. 反卷积:
反卷积:固定步长,易产生伪影。
转置卷积:学习步长与填充,输出更平滑。
注意力机制:
CBAM(Convolutional Block Attention Module):同时建模通道与空间注意力。
案例:在ADE20K数据集上提升mIoU约3%。
实时分割模型
YOLACT:单阶段检测+实例分割,FPS达100+(适用于车载系统)。
NVIDIA Metashape:基于深度学习的实时三维重建与分割(工业级应用)。
但具有以下问题和发展趋势
遮挡问题:如人群密集场景中的个体分割。
动态模糊:高速运动物体的实时分割。
跨模态数据:文本与图像联合分割(如OCR+语义分割)。
Transformer应用:DETR(基于Transformer的目标检测)衍生出DINOv2分割模型。
自监督学习:减少标注依赖(如Masked Autoencoders)。
轻量化设计:MobileNetV7 + 分割头(适合边缘设备部署)。