文件内容课堂总结-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_79975534/article/details/146400458

图像分割是通过算法预测目标轮廓，将图像像素划分为不同类别的任务，属于细粒度分类。例如，在医疗影像中区分肿瘤与健康组织，或在自动驾驶中识别车道线与障碍物。
应用场景
人像抠图：移除背景保留人物（如Photoshop抠图、虚拟换装）。
医学影像：肿瘤检测（如CT/MRI中的病灶区域标注）。
遥感分析：卫星图像中的土地分类（农田、森林、水域）。
自动驾驶：道路/行人/车辆实时检测（需低延迟与高精度）。
工业质检：材料缺陷定位（如芯片制造中的微裂纹识别）。
图像分割核心概念
物体与事物
物体（Things）：可数的独立目标，如行人、汽车，通常需要区分个体（实例分割）。
事物（Stuff）：不可数的背景元素，如天空、草地，关注语义类别而非个体（语义分割）。
三层境界
语义分割
输出：单通道掩膜图（如Cityscapes中每个像素标注"道路"或"建筑"）。
任务：区分不同语义类别，不关心具体实例。
案例：自动驾驶中识别"路面"与"障碍物"。
实例分割
输出：多通道掩膜图（每类一个通道，每个实例独立ID）。
任务：同时识别类别、边界框和个体ID。
案例：医疗影像中标记多个肿瘤实例（ID1=左肺结节，ID2=右肺结节）。
全景分割
输出：两通道信息（语义标签+实例ID），融合语义与实例分割。
任务：既区分"草地"与"树木"，又为每棵树分配唯一ID。
案例：自动驾驶场景中同时识别"路灯"（语义）和"第3号路灯"（实例）。
图像分割数据集
VOC数据集
领域：通用物体检测与分割。
标注细节：
如2012年版本：20类语义标签（如"人"、"车"），5k+实例。
实例分割标注：使用边框（bbox）和像素级掩膜。
挑战：小目标密集场景（如人群）的分割精度较低。
Cityscapes数据集
领域：城市街景理解。
标注特点：
精细标注：30类（如"交通标志"、"人行道"），5k张高清图。
粗略标注：2万张图用于训练效率提升。
应用场景：自动驾驶环境感知训练。
COCO数据集
领域：复杂日常场景。
核心优势：
91类标注（含80个"通用物体"类），82类≥5k实例。
实例分割标注：涵盖遮挡、多样姿态等问题。

典型案例：Mask R-CNN在此数据集上的mAP达到38.6%。
图像分割评估指标
像素级指标
Pixel Accuracy (PA)
公式： PA = 正确像素数 / 总像素数
局限性：忽略类别不平衡（如多数像素为背景）。
Mean Pixel Accuracy (mPA)
公式： mPA = Σ(正确类像素数 / 该类总像素数) / 类总数
优势：对少数类更敏感。
区域级指标
IoU（Intersection over Union）
公式： IoU = 预测∩真实 / (预测∪真实)
目标：衡量预测区域与真实区域的重叠程度。
通常阈值≥0.5视为合格分割。
mIoU（Mean IoU）
计算：逐类计算IoU后取平均。
COCO官方比赛采用mIoU作为核心指标（如2023年目标检测mIoU达52.5%）。
FWIoU（Frequency-Weighted IoU）
公式： FWIoU = Σ(频率_N * IoU_N) / Σ频率_N
频率：某类在数据集中出现的概率。
优势：缓解类别不平衡问题（如Cityscapes中"道路"占比40%）。
图像分割网络架构
经典模型演进
FCN（Fully Convolutional Network）
结构：编码器（CNN下采样）→ 解码器（反卷积上采样）。
缺陷：分辨率损失严重，边缘细节模糊。
U-Net
创新：编码器+解码器+跳跃连接（对称结构）。
应用：医学影像（如脑部肿瘤分割），Dice系数达0.9以上。
Mask R-CNN
思路：Faster R-CNN框架 + 分支预测掩膜。
关键：RoI Align（区域提议与特征对齐）。
性能：COCO实例分割mAP达38.6%。
DeepLab系列
核心：空洞卷积（扩大感受野）+ 多尺度特征融合。
最新版本：DeepLabv6结合视觉Transformer（ViT）提升分割精度。
关键技术
转置卷积 vs. 反卷积：
反卷积：固定步长，易产生伪影。
转置卷积：学习步长与填充，输出更平滑。
注意力机制：
CBAM（Convolutional Block Attention Module）：同时建模通道与空间注意力。
案例：在ADE20K数据集上提升mIoU约3%。
实时分割模型
YOLACT：单阶段检测+实例分割，FPS达100+（适用于车载系统）。
NVIDIA Metashape：基于深度学习的实时三维重建与分割（工业级应用）。
但具有以下问题和发展趋势
遮挡问题：如人群密集场景中的个体分割。
动态模糊：高速运动物体的实时分割。
跨模态数据：文本与图像联合分割（如OCR+语义分割）。
Transformer应用：DETR（基于Transformer的目标检测）衍生出DINOv2分割模型。
自监督学习：减少标注依赖（如Masked Autoencoders）。
轻量化设计：MobileNetV7 + 分割头（适合边缘设备部署）。