文件内容课堂总结

图像分割是通过算法预测目标轮廓,将图像像素划分为不同类别的任务,属于细粒度分类。例如,在医疗影像中区分肿瘤与健康组织,或在自动驾驶中识别车道线与障碍物。 
应用场景
人像抠图:移除背景保留人物(如Photoshop抠图、虚拟换装)。 
医学影像:肿瘤检测(如CT/MRI中的病灶区域标注)。 
遥感分析:卫星图像中的土地分类(农田、森林、水域)。
自动驾驶:道路/行人/车辆实时检测(需低延迟与高精度)。
工业质检:材料缺陷定位(如芯片制造中的微裂纹识别)。
图像分割核心概念
物体与事物
物体(Things):可数的独立目标,如行人、汽车,通常需要区分个体(实例分割)。
事物(Stuff):不可数的背景元素,如天空、草地,关注语义类别而非个体(语义分割)。 
三层境界 
语义分割
输出:单通道掩膜图(如Cityscapes中每个像素标注"道路"或"建筑")。 
任务:区分不同语义类别,不关心具体实例。
案例:自动驾驶中识别"路面"与"障碍物"。
实例分割
输出:多通道掩膜图(每类一个通道,每个实例独立ID)。 
任务:同时识别类别、边界框和个体ID。 
案例:医疗影像中标记多个肿瘤实例(ID1=左肺结节,ID2=右肺结节)。
全景分割
输出:两通道信息(语义标签+实例ID),融合语义与实例分割。
任务:既区分"草地"与"树木",又为每棵树分配唯一ID。
案例:自动驾驶场景中同时识别"路灯"(语义)和"第3号路灯"(实例)。 
图像分割数据集
VOC数据集 
领域:通用物体检测与分割。
标注细节: 
如2012年版本:20类语义标签(如"人"、"车"),5k+实例。 
实例分割标注:使用边框(bbox)和像素级掩膜。 
挑战:小目标密集场景(如人群)的分割精度较低。
Cityscapes数据集
领域:城市街景理解。
标注特点: 
精细标注:30类(如"交通标志"、"人行道"),5k张高清图。 
粗略标注:2万张图用于训练效率提升。
应用场景:自动驾驶环境感知训练。
COCO数据集 
领域:复杂日常场景。 
核心优势: 
91类标注(含80个"通用物体"类),82类≥5k实例。
实例分割标注:涵盖遮挡、多样姿态等问题。
 
典型案例:Mask R-CNN在此数据集上的mAP达到38.6%。 
图像分割评估指标
像素级指标 
Pixel Accuracy (PA) 
公式: PA = 正确像素数 / 总像素数  
局限性:忽略类别不平衡(如多数像素为背景)。 
Mean Pixel Accuracy (mPA) 
公式: mPA = Σ(正确类像素数 / 该类总像素数) / 类总数  
优势:对少数类更敏感。
区域级指标 
IoU(Intersection over Union) 
公式: IoU = 预测∩真实 / (预测∪真实)  
目标:衡量预测区域与真实区域的重叠程度。 
通常阈值≥0.5视为合格分割。
mIoU(Mean IoU)
计算:逐类计算IoU后取平均。
COCO官方比赛采用mIoU作为核心指标(如2023年目标检测mIoU达52.5%)。
FWIoU(Frequency-Weighted IoU)
公式: FWIoU = Σ(频率_N * IoU_N) / Σ频率_N 
频率:某类在数据集中出现的概率。 
优势:缓解类别不平衡问题(如Cityscapes中"道路"占比40%)。 
图像分割网络架构
经典模型演进 
FCN(Fully Convolutional Network) 
结构:编码器(CNN下采样)→ 解码器(反卷积上采样)。
缺陷:分辨率损失严重,边缘细节模糊。
U-Net 
创新:编码器+解码器+跳跃连接(对称结构)。 
应用:医学影像(如脑部肿瘤分割),Dice系数达0.9以上。 
Mask R-CNN 
思路:Faster R-CNN框架 + 分支预测掩膜。 
关键:RoI Align(区域提议与特征对齐)。 
性能:COCO实例分割mAP达38.6%。 
DeepLab系列 
核心:空洞卷积(扩大感受野)+ 多尺度特征融合。 
最新版本:DeepLabv6结合视觉Transformer(ViT)提升分割精度。
关键技术 
转置卷积 vs. 反卷积:
反卷积:固定步长,易产生伪影。
转置卷积:学习步长与填充,输出更平滑。 
注意力机制:
CBAM(Convolutional Block Attention Module):同时建模通道与空间注意力。 
案例:在ADE20K数据集上提升mIoU约3%。 
实时分割模型
YOLACT:单阶段检测+实例分割,FPS达100+(适用于车载系统)。
NVIDIA Metashape:基于深度学习的实时三维重建与分割(工业级应用)。
但具有以下问题和发展趋势
遮挡问题:如人群密集场景中的个体分割。
动态模糊:高速运动物体的实时分割。
跨模态数据:文本与图像联合分割(如OCR+语义分割)。
Transformer应用:DETR(基于Transformer的目标检测)衍生出DINOv2分割模型。
自监督学习:减少标注依赖(如Masked Autoencoders)。
轻量化设计:MobileNetV7 + 分割头(适合边缘设备部署)。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值