论文笔记 | BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentati

本文提出一种利用边界框(BBox)替代或辅助掩膜(Mask)进行图像像素级分割的方法,旨在减少标注工作量并提升模型性能。研究显示,在一定比例下混合使用BBox与掩膜可以有效增强网络的分类能力,进而改善分割效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Authors

Jifeng Dai Kaiming He Jian Sun

Abstract

本文使用bbox 来代替或者部分代替mask进行图像像素级分割,节省了标注时间,充分利用了bbox的数据集。基本思路是automativally generating region proposals and training convolutional networks 相互交替进行,每次交替都使用1 epoch。单纯使用bbox得到的结果略差,但是如果按照1:9的比例使用mask和bbox得到的结果要比单纯mask的要好,因为大量的bbox增加了网络的分类能力。

1 Introduction

region proposal methods

J. Carreira and C. Sminchisescu.  Cpmc: Automatic ob-
ject segmentation using constrained parametric min-cuts.
C. Szegedy,  W. Liu,  Y. Jia,  P. Sermanet,  S. Reed,
D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.
Going deeper with convolutions. 2015
 P. Arbel
 ́
aez, J. Pont-Tuset, J. T. Barron, F. Marques, and
J. Malik.  Multiscale combinatorial grouping.  In
CVPR2014.

文中使用MCG得到最好的结果,baseline模型是FCN+CRF

#CRF
L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and
A. L. Yuille. Semantic image segmentation with deep con-
volutional nets and fully connected crfs. 2015

3 baseline

baseline即普通的fcn用于分割 的情况,CRF用于后处理,其loss为:
这里写图片描述

4 Approach

本文方法不依靠完整的mask,所以上面的loss不能直接使用。为了利用上面的loss方法,这里作者的方法是使用segment proposal用来代替mask。其proposal的candidate mask每个bbox一个,方法是使用MCG,目标函数是使bbox与segment mask的IoU最大,方程是:
这里写图片描述
为mask设置label,与公式一共同成立了下式:
这里写图片描述
λ=3
训练过程中,先固定网络参数,从k个largest cost的segments中随机选定暂时的segment masks,然后利用该mask生成新的模型,再通过loss选定mask

其他

文中分析为什么多box会得到更好的结果的实验是利用“trimap”来对比分析,使用boundary的实验效果通过bbox的提高较使用interior的效果要弱。interior的提高程度高说明bbox主要对提高物体的分辨能力有帮助。
另外使用mutilscales也有助于提高成绩。

### 利用时空关系通过图卷积网络进行3D姿态估计 #### 图卷积网络概述 图卷积网络(Graph Convolutional Networks, GCNs)是一种专门处理结构化数据的强大工具。这类神经网络能够有效地捕捉节点之间的复杂依赖关系,适用于诸如社交网络分析、推荐系统以及生物信息学等领域。当应用于人体姿态估计时,GCN可以建模关节间的拓扑连接,并融合多帧视频中的时间动态特性。 #### 空间-时间关系建模 为了实现基于时空关联性的3D姿态估计,研究者们提出了多种方法来构建合适的图形表示并定义相应的传播机制: 1. **空间维度上的邻接矩阵构造** - 将人体骨架视为无向加权图G=(V,E),其中顶点集V代表各个关节点而边E则编码相邻关节间的物理连通性。 - 权重通常由欧氏距离或其他相似度量决定,以此反映两节点之间的重要性程度[^1]。 2. **时间序列下的特征聚合** - 对于连续动作片段而言,除了考虑单张图像内各部位的空间布局外还需关注跨时刻的变化趋势。 - 可以引入循环单元或自注意力模块辅助捕捉长期依赖模式,从而增强对于快速运动场景下瞬态行为的理解能力[^2]。 #### SelecSLS Net 架构特点 针对多人环境下的高效实时处理需求,有学者开发出了名为SelecSLS Net的新颖框架。该模型具备如下优势: - 结合传统ResNet风格的局部跳跃链接与全局跳转路径于一体; - 有效缓解梯度消失现象的同时促进了深层特征的有效传递; - 显著降低了计算成本却并未牺牲精度表现,特别适合移动端部署应用场合[^3]. ```python import torch.nn as nn class SelecSLSBlock(nn.Module): def __init__(self, in_channels, out_channels): super(SelecSLSBlock, self).__init__() # 定义具体层操作... def forward(self, x): residual = self.shortcut(x) out = self.conv_block(x) return out + residual ```
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值