原文:CASENet: Deep Category-Aware Semantic Edge Detection
代码:CASENet CVPR2017
1.简要介绍
这篇文主要讲的是关于多标签语义边缘检测任务,一般的边缘检测都是二元任务,如果还想让边缘有类别属性就更具挑战性。下图来自CItyscapes数据集,图中包含行人、建筑物、车等类别物品。图像中的边缘像素可以同时属于多种类,例如行人和建筑物在交接处的像素点与这两个类别都关联。

本文提出了CASENet,最终生成K张与原图大小一样的边缘图,每张图表示特定类的边缘概率,每个边缘像素由一个向量表示。下图是网络效果的一个例子。

对于输入图像 I 和类别数K,可以获得K个边缘图{ Y 1 , . . . , Y K Y_1,...,Y_K Y1,...,YK },用 Y K ( p ∣ I , W ) ∈ [ 0 , 1 ] Y_K(p|I,W)∈[0,1] YK(p∣I,W)∈[0,1]表示像素p在第K个类别的边缘概率,W表示参数。
本文主要贡献包括:
- 提出了一个多标签学习框架,比传统的多类框架有更好的边缘学习能力
- 提出了一种新的嵌套结构,不需要对ResNet进行深监督,底层特征只用于加强顶层分类
- 在 SBD和Cityscapes数据集上效果是当时的SOTA
2.主要内容
损失函数: 用的是交叉熵损失函数的变体,如下。

β表示图像中非边缘像素的百分比,因为正负样本像素数量差距很大。
网络结构: 在介绍本文提出的CASENet(图c)之前,先介绍两种可供选择的网络结构,这两种结构也可以解决语义边缘检测任务,但是有一些缺点,而CASENet能解决这些不足。

Base network: 利用全卷积网络解决边缘检测问题,采用ResNet-101结构并去掉原始的平均池化和全连接层,留下底层卷积块。为了更好地保存低级边缘信息,改变第一个和第五个卷积块的步长(res1,res5,2→1),然后在后续卷积层引入空洞卷积,保证和原始ResNet-101的感受野一致。
图a就是上述所说的Base network,在它顶层加了一个分类模块(细节见图d)。分类模块包含一个1x1卷积和一个双线性插值的上采样层,生成K个激活图{ A 1 , . . . , A K A_1,...,A_K A

本文介绍CASENet,一种深度学习框架,专为多标签语义边缘检测设计。通过改进的ResNet结构和创新的嵌套设计,CASENet能够生成具有类别属性的边缘图,适用于复杂场景下的边缘识别与分类。
最低0.47元/天 解锁文章

597

被折叠的 条评论
为什么被折叠?



