语义分割介绍

1. 定义

语义指具有人们可用语言探讨的意义,分割指图像分割。
语义分割(semantic segmentation)能够将整张图的每个部分分割开,使每个部分都有一定类别意义(语义),让计算机可以理解图像。
语义分割是以描边的形式,将整张图不留缝隙地分割成每个区域,每个区域是一个类别没有类别的默认为背景background
在这里插入图片描述
此外,有两个与语义分割类似的说法,但不是同一个概念:

  • 实例分割: 实例分割会对同一类的不同对象进行分割。比如说,语义分割会将车分为一类,人分为另一类。而实例分割会将车继续进行分类每一辆车都是一个实例类别
  • 全局分割: 简单地来讲,全景分割是实例分割与语义分割的结合。全景分割中的每一个像素点都会分成对应的语义标签和实例标签。如果一种类别里有多个实例,会用不同的颜色进行区分

在这里插入图片描述

2 常用的数据集

2.1 PASCAL VOC

介绍
使用一系列PNG图片,图片中的每个像素都记录了所属的类别索引,也就是像素值,不同的像素值代表不同的类别。
注意,这些PNG是使用调色板的方式进行存储,通过像素值来表示颜色,如像素1对应(127,0,0)。因此这些图片是单通道的图片

由下图可知,对于边缘与不确定的像素会使用特殊的颜色来标记,使用了像素值为255进行填充。而背景则使用像素值0来填充。
在这里插入图片描述

2.2 MS COCO

使用该数据集进行语法分割时,会针对图像中的每个目标都记录了一个多边形的坐标这个多边形框柱了目标
这个数据可以用于语义分割与实例分割。
在这里插入图片描述

3. 结果的表现形式

不同像素值代表不同的类别,属于同一类别的像素有相同的像素值。利用像素值来代表各个类别
在这种形式中使用了调色板,也就是每个像素值都对应着一个颜色

在这里插入图片描述

4. 评价指标

首先是一些标识:

  • n i j n_{ij} nij:类别 i i i被预测为类别 j j j的像素个数
  • n c l s n_{cls} ncls:类别的个数,包含背景
  • t i = ∑ j n j i t_i=\textstyle \sum_{j}^{}n_{ji} ti=jnji:类别 i i i有多少个像素(真实标签)

4.1 Pixel Accuracy (Global Acc)

正确预测的像素个数 / 总像素个数
在这里插入图片描述

4.2 mean Accuracy

  1. 先求出每个类别的得分:对于当前类别,预测正确的个数/当前类别的总个数。
  2. 然后将这些得分求和。
  3. 最后除于类别的个数

在这里插入图片描述

4.3 IoU

分母为真实类型为 i i i的像素 和 被预测类型为 i i i的像素的并集
分子为预测正确的像素个数,两者消除得到类别 i i i的IoU得分
在这里插入图片描述

4.4 mean IoU

对全部类别的IoU得分求和,然取平均值。
在这里插入图片描述

4.5 例子

真实标签与预测标签的分布情况如图所示,并且结合两个情况得到预测正确与错误的情况,这里用一个矩阵表示,对象线上的总和为预测正确的个数,其余为预测错误的。
在这里插入图片描述在这里插入图片描述
通过上述数据,可以计算出性能评分:

① global accuracy
在这里插入图片描述
② mean accuracy
这里计算了每个类别的得分
在这里插入图片描述
③ IoU
在这里插入图片描述

5. 标注工具

① Labelme

② EISeg

### YOLOv11在语义分割方面的概述和技术细节 尽管目前关于YOLOv11的具体文档较少,但从已有的YOLO系列模型发展来看,可以推测其可能的技术方向和改进之处。以下是基于现有YOLO版本以及语义分割领域发展趋势的分析。 #### 一、YOLOv11背景与发展 YOLO(You Only Look Once)作为目标检测领域的经典算法之一,在多个版本迭代过程中持续优化性能与效率。从引用中可以看出,YOLOv8已经具备较强的图像分割能力[^1],而后续版本如YOLOv9则进一步引入了新的架构设计以提升参数利用率和计算效率[^2]。因此,假设YOLOv11继承并扩展这些特性,则很可能在以下几个方面有所突破: - **更高效的特征提取机制**:通过改进骨干网络结构或采用新型注意力机制增强局部区域感知能力。 - **多尺度融合策略**:更好地平衡全局上下文信息与细粒度边缘捕捉之间的关系。 - **轻量化部署支持**:针对移动设备或其他资源受限环境提供更加友好的解决方案。 #### 二、语义分割定义及其重要性 语义分割属于计算机视觉范畴内的高层次任务之一,旨在将输入图片按照像素级别分配给预设类别标签集合中的某一项成员。相比起仅标注边界框位置的传统对象探测方法而言,前者提供了更为精细的空间分布描述形式[^3]。对于诸如自动驾驶汽车导航系统来说尤为重要——它们依赖于精准的道路状况理解以便做出安全决策动作;同样适用于医学影像诊断等领域当中也需要高精度解剖部位划分结果辅助医生判断病情进展程度等情况。 #### 三、潜在技术特点 如果考虑YOLOv11应用于语义分割场景下的话,那么预计会包含如下几个关键技术要点: ##### 1. 高效层聚合网络(GELAN) 类似于之前提到过的YOLOv9所使用的广义高效层聚合网络概念[GELAN], 它允许不同层次间的信息自由流动从而减少冗余运算量的同时保持甚至提高最终预测质量水平. ##### 2. 可编程梯度信息(PGI) 和可逆函数 为了克服深层神经元连接中存在的信号衰减现象, PGI 能够动态调整反向传播过程当中的权重更新规则; 同时配合使用某些特定类型的激活单元构成所谓的'可逆'映射关系使得整个前馈路径变得几乎完全无损传输原始数据样本特征表示. ##### 3. 增强版空间金字塔池化(SPP) 传统SPP模块已经被证明非常有效用于捕获多种尺寸大小的目标实体轮廓线条等几何属性特征. 如果新版框架继续沿用此类思想但加以改良升级成自适应版本的话将会极大地促进跨分辨率条件下的一致表现效果. ##### 4. 新型损失函数设计 考虑到语义分隔任务本身存在高度不平衡分类概率密度分布情况(即大部分空白区域对应单一类名), 所以有必要重新审视标准交叉熵衡量方式是否存在局限性进而探索其他替代方案比如焦点损失(Focal Loss) 或者 Lovász-Hinge loss 来缓解上述难题带来的负面影响. ```python import torch.nn as nn class FocalLoss(nn.Module): def __init__(self, alpha=0.25, gamma=2): super(FocalLoss, self).__init__() self.alpha = alpha self.gamma = gamma def forward(self, inputs, targets): BCE_loss = nn.BCEWithLogitsLoss()(inputs, targets) pt = torch.exp(-BCE_loss) focal_loss = self.alpha * (1-pt)**self.gamma * BCE_loss return focal_loss.mean() ``` #### 四、总结说明 综上所述,YOLOv11假如真的推出面向语义分割用途的产品形态, 很可能会综合运用先进理论研究成果来打造一款既强大又灵活易用的新一代工具集. 不过值得注意的是任何新技术的应用推广都需要经过充分验证测试才能真正落地实用阶段. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值