
语义分割
JNingWei
工作后比较忙,不怎么看账号和消息。回复不及时望见谅。
展开
-
Pixel accuracy
Pixel accuracy是2007年PASCAL VOC语义分割任务开始使用的分割质量评估方法。该方法是不对称的,且对预测mask大于ground truth mask的情况得分比较高,因此近年来不再使用。原创 2021-09-06 03:51:01 · 670 阅读 · 0 评论 -
MIoU,Mean IoU,Mean Intersection over Union,均交并比
(Mean IoU,Mean Intersection over Union,均交并比,交集 / 并集),也就是语义分割中所谓的 Mask IoU 。MIoU:计算两圆交集(橙色TP)与两圆并集(红色FN+橙色TP+黄色FP)之间的比例,理想情况下两圆重合,比例为1。...原创 2021-09-06 03:49:09 · 2346 阅读 · 0 评论 -
DilatedFCN
主要是修改分类网络的后面block,用空洞卷积来替换stride=2的下采样层。原创 2021-09-06 03:47:43 · 921 阅读 · 0 评论 -
边缘锯齿状
上采样的放大倍数太多,插值导致的。对比较关注细节的场景,影响较大。解决方法:增大分辨率原创 2021-09-06 03:46:56 · 1068 阅读 · 0 评论 -
棋盘效应(Checkerboard Artifacts)
定义:棋盘效应是由于反卷积的“不均匀重叠”(Uneven overlap)的结果。使图像中某个部位的颜色比其他部位更深:具体原因:在反卷积操作时,如果卷积核(Kernel)大小不能被步长(Stride)整除时,反卷积输出的结果就会不均匀重叠:在二维情况下棋盘效应更为严重,如下:原则上,网络可以通过训练调整权重来避免这种情况。解决方法就是注意调整好卷积核(Kernel)大小与步长(Stride)的关系。不重叠(图a: kernel <= stride)与均匀..原创 2021-09-06 03:45:38 · 10617 阅读 · 0 评论 -
条件随机场(Conditional Random Field,CRF)
完全连接的CRF在双线性插值后应用于网络输出上。CRF是一个后阶段的处理过程,它使DeepLabv1和DeepLabv2变为不是端到端的学习框架。不在DeepLabv3和DeepLabv3 +中被弃用。输入的是原图和mask,对输出结果做一个融合微调,使得分割结果更精准。CRF能够稳定提效,但是极其耗时。只有完全不考虑实效性的刷版才会使用到。要用的话,推荐用全连接条件随机场(DenseCRF)。【总结】图像语义分割之FCN和CRF...原创 2021-09-06 03:41:45 · 755 阅读 · 0 评论 -
边缘loss
本质上是一种损失加权方案。原创 2021-09-06 03:40:04 · 1305 阅读 · 0 评论 -
带孔空间金字塔池化(ASPP)
在DeepLab中,采用空间金字塔池化模块来进一步提取多尺度信息,这里是采用不同rate的空洞卷积来实现这一点。ASPP模块主要包含以下几个部分:(1)一个1×1卷积层,以及三个3x3的空洞卷积,对于output_stride=16,其rate为(6, 12, 18) ,若output_stride=8,rate加倍(这些卷积层的输出channel数均为256,并且含有BN层);(2)一个全局平均池化层得到image-level特征,然后送入1x1卷积层(输出256个channel),..原创 2021-09-06 03:38:44 · 2934 阅读 · 0 评论 -
空洞卷积(Atrous/Dilated Convolution)
由Deeplabv1提出的。有两种实现方式:一,卷积核填充0。二,输入等间隔采样。扩张率(dilation rate),也叫空洞数(Hole Size)。标准卷积可以看做空洞卷积rate=1(Note:rate=2表示中间空洞间隙为1)的特殊形式。中间的空洞间隙,计算感受野的时候,也属于感受野的有效范围。(单个卷积的感受野计算公式:[(rate-1)(k-1) + k] ** 2 ,其中(rate-1)(k-1) 是因为空洞而新增加的边长增量)作用..原创 2021-09-06 03:35:00 · 2548 阅读 · 0 评论 -
跨层连接(Skip Layer)
提出于FCN。如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以将不同池化层的结果进行上采样之后来优化输出:不同上采样结构得到的结果对比举例如下(FCN):也可以将pool1, pool2的输出再上采样输出。但作者说了这样得到的结果提升并不大。(实际实验过发现也确实是这样的!)...原创 2021-09-06 03:28:45 · 1447 阅读 · 0 评论 -
反卷积(Deconvolution)/ 转置卷积(Transpose Convolution)
提出于FCN。反卷积和卷积类似,都是相乘相加的运算。只不过后者是多对一,前者是一对多。而反卷积的前向和后向传播,只用颠倒卷积的前后向传播即可。所以无论优化还是后向传播算法都是没有问题。图解如下:...原创 2021-09-06 03:26:52 · 652 阅读 · 0 评论 -
论文阅读: 2104.STDC
2104.13188:Rethinking BiSeNet For Real-time Semantic Segmentation创新点Short-Term Dense Concatenate(STDC):在 BiSeNet(context path + spatial path)的基础上,对有效但极耗时的 spatial path 进行了 去冗余 。逐步降低特征图的维度,并利用它们的聚合来表示图像,以此形成 STDC 网络的基本模块。在解码器中,通过将空间信息的学习以 sin原创 2021-09-06 03:24:50 · 311 阅读 · 0 评论 -
论文阅读: 2104.Lite-HRNet
2104.06403:Lite-HRNet: A Lightweight High-Resolution Network创新点结构设计:在HRNet中用 shuffle block 替换 res block,得到了Naive Lite-HRNet。基于HRNet多尺度信息丰富的特性,加入了多尺度信息交互,并通过pooling的方法,降低了Shuffle Block中的1*1 Conv的计算复杂度。动机:为了做一个高分辨率的轻量化HRNet网络。采用类似的思路,在HRNe原创 2021-09-06 03:21:14 · 519 阅读 · 0 评论 -
论文阅读: 2103.Boundary IoU
2103.16562:Boundary IoU: Improving Object-Centric Image Segmentation Evaluation动机Mask IoU对于大物体边界的分割质量不敏感:随着物体尺寸的增加,物体内部像素数量以二次方形式增加,而物体边界像素数量以线性形式增加,导致尺寸越大的物体,边界像素占总像素的比重越小。当物体内部像素被正确分割时,即使边界像素分割质量不好,Mask IoU的值也比较高。下图中横轴表示物体面积,纵轴表示Mask IoU的值;左图和右图分别原创 2021-09-06 03:17:39 · 564 阅读 · 0 评论 -
论文阅读: 2005.U2Net
2005.09007:U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection该网络用于轻量级的 SOD(显著目标检测,Salient Object Detection),能够取得出色的效果,同时模型文件较小,更适合于移动设备。创新点U-shape套娃:原有的U-shape架构套娃U-shape子架构,最终能取得十分出色的效果:原文表示甚至还能继续往下套娃(不过会too complicat原创 2021-09-06 03:10:36 · 356 阅读 · 0 评论 -
论文阅读: 2002.SFNet
2002.10120:Semantic Flow for Fast and Accurate Scene Parsing创新点FAM(Flow Alignment Module,流对齐模块)。受光流的启发,提出一种语义流对齐的方法,可以解决在使用双线性插值进行上采样时所出现的对不齐问题。低分辨率的高级特征图上的语义信息很好地流向了高分辨率的低级特征图中。通过丢弃空洞卷积来减少计算开销并利用流对齐模块来丰富低层特征的语义表示,使网络能够在语义分割精度和运行时间效率之间实现了最佳的原创 2021-09-06 03:02:58 · 830 阅读 · 0 评论 -
论文阅读: 1912.PointRend
1912.08193:PointRend: Image Segmentation as Rendering中心思想上采样过程中不断迭代(一般是迭代5次upsample_2x)的均匀采样是导致分割边缘不精细的原因:规则网格(regular grid)会导致原本需要特殊关照的、所占像素区域极小的高频(重要)区域(非平滑边缘)被无差别对待。对每次的上采样做一个精修后处理:在不增加分辨率的前提下,可以借鉴计算机图像学中的图像渲染思想,设计新module,以迭代渲染出更高质量的分割图。图像渲染原创 2021-09-06 03:00:06 · 337 阅读 · 0 评论 -
论文阅读: 1911.SINet
1911.09099:SINet: Extreme Lightweight Portrait Segmentation Networks with Spatial Squeeze Modules and Information Blocking DecoderSINet 侧重于在提升人像分割网络的速度。网络结构网络框架主要分为两部分:包含 空间压缩模块(spatial squeeze module)的编码器。空间压缩模块(spatial squeeze module):在 shuf原创 2021-09-06 02:49:32 · 473 阅读 · 0 评论 -
论文阅读: 1909.OCRNet
1909.11065:Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation创新点OCR:聚合 “对象上下文信息“(Object-Contextual Representations)的分割head。因为像素的标签是像素所在的对象的标签,可通过相应的粗分割对象区域信息,对粗分割进行后处理(来增强像素特征的描述)。提出的OCR方法不同于传统的多尺度上下文方案:OCR将相同原创 2021-09-06 02:43:24 · 741 阅读 · 0 评论 -
论文阅读: 1908.HRNetv1
1908.07919:Deep High-Resolution Representation Learning for Visual Recognition创新点一种全新的网络架构思想:以前的模型都是下采样后再上采样,采用低分辨率到高分辨率的处理来达到预期的高分辨率表示。而HRNet能够在网络整个过程中保持特征的高分辨率表示:一直维持高分辨率分支,通过融合低分辨率分支上采样带来的high level信息,达到重复多尺度信息的融合。可以使得heatmap在空间上预测关节点更准确。原创 2021-09-06 02:35:05 · 226 阅读 · 0 评论 -
论文阅读: 1904.HRNetv2
1904.04514:High-Resolution Representations for Labeling Pixels and Regions待补充。原创 2021-09-06 02:28:17 · 257 阅读 · 0 评论 -
论文阅读: 1904.DFANet
1904.02216:DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation创新点特征聚合:将子网络、子层级的有区分力的特征分别进行聚合。尺度间的特征聚合包含两个阶段:首先,将从 backbone 中抽取得到的高层特征重复利用,来解决语义信息和结构细节的gap。其次,将网络的处理过程的不同阶段所获得的特征进行组合,来提高特征的表达能力。性能实际上这种网络因为结构太复杂,并不能实时(好多论文原创 2021-09-06 02:26:50 · 214 阅读 · 0 评论 -
论文阅读: 1903.PotraitNet
2019.03.007:PortraitNet: Real-time portrait segmentation network for mobile device四大创新点:轻量级:轻量级的实时人像分割U型架构,可以有效地在移动设备上运行:边界损失(boundary loss):边界的label来自对分割gt的canny算子的输出。设置线宽为4。因为边界占据图像很小的部分,为了避免极度的样本不均衡,所以用的是focal loss。一致性损失(consistency原创 2021-09-06 02:21:31 · 287 阅读 · 0 评论 -
论文阅读: 1808.BiSeNet
1808.00897:BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation创新点提出了 2-path 的 Bilateral Segmentation Network (BiSeNet),context path来编码不同感受野和不同尺度的高级语义信息(即high-level feature),spatial path来编码丰富的细节空间信息(即low-level feature),融合后得到预测结果原创 2021-09-06 02:15:14 · 204 阅读 · 0 评论 -
论文阅读: 1802.Deeplabv3+
1802.02611:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation属于典型的DilatedFCN,它是Google提出的DeepLab系列的第4弹。创新点在DeepLab v3上的基础上增加了一个Decoder。Decoder将底层特征与高层特征进一步融合,提升分割边界准确度。从某种意义上看,DeepLabv3+在DilatedFCN基础上引入了EcoderDecode原创 2021-09-06 02:09:24 · 368 阅读 · 0 评论 -
论文阅读: 1712.BSN
论文针对肖像分割(Portrait Segmentation)。四大创新点提出了BSNet:三个trick:个体边缘敏感算子。全局边缘敏感算子。边缘敏感属性分类器。Boundary-sensitive Network for Portrait Segmentation论文解读...原创 2021-09-06 02:02:20 · 219 阅读 · 0 评论 -
论文阅读: 1706.Deeplabv3
1706.05587:Rethinking Atrous Convolution for Semantic Image Segmentation三大改进点去掉CRF模块。改进了ASPP:相比V2的ASPP增加了1x1的conv以及global avg pooling。对ASPP每个空洞卷积加入了BN层。在级联模块中应用空洞卷积:将空洞卷积应用在最后面的级联模块,框架可以更通用。论文中的级联模块指复制了四份block4,这四份分别使用不同rate的空洞卷积,最终blo原创 2021-09-06 01:59:03 · 201 阅读 · 0 评论 -
论文阅读: 1705.DRN
1705.09914:Dilated Residual Networks使用扩张卷积替换模型中的下采样,保持feature map的空间分辨率同时不降低后续卷积层的接收野的分辨率,实验证明这样简单转换是有效的:DRN结构没有了resnet最后的两次下采样,也就是说,特征图在28x28的大小之后就不再变小了。不再减小特征图尺寸,那么就要增加卷积核的膨胀系数。可以看到,DRN没有后两次下采样(在本该第四次采样的卷积过程中将膨胀系数改成2,在本该第五次采样的卷积过程中将膨胀系数改成4,均能保持相同的原创 2021-09-06 01:55:20 · 175 阅读 · 0 评论 -
论文阅读: 1611.PSPNet
论文阅读: 1611.PSPNet原创 2021-09-06 01:52:42 · 310 阅读 · 0 评论 -
论文阅读: 1611.RefineNet
1611.06612:RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation创新点提出基于Resnet的残差连接的思想设计的RefineNet(提炼网络),可以充分利用各个层级的features,使得语义分割更为精准。作者认为高级语义特征可以更好地进行分类识别,而低级别视觉特征有助于生成清晰、详细的边界。residual connections(identity map原创 2021-09-06 01:49:57 · 172 阅读 · 0 评论 -
论文阅读: 1606.Deeplabv2
1606.00915:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs两大创新点:ASPP受SPPNet启发,新提出空间金字塔池化 Atous Spatial Pyramid Pooling(ASPP)(类似于SPPNet的空间金字塔结构),并行的采用多个采样率的空洞卷积提取特征,再将特征融合:能够用多尺度获得原创 2021-09-06 01:45:35 · 217 阅读 · 0 评论 -
论文阅读: 1511.SegNet
1511.00561:SegNet: A Deep ConvolutionalEncoder-Decoder Architecture for ImageSegmentation只是结构上比较优雅,它得到的结果不一定比FCN好:原创 2021-09-06 01:40:47 · 175 阅读 · 0 评论 -
论文阅读: 1505.UNet
1505.04597:U-Net: Convolutional Networks for Biomedical Image SegmentationU-net:对称语义分割模型该网络模型:一个收缩路径 + 一个对称扩张路径。收缩路径用来获得上下文信息,对称扩张路径用来精确定位分割边界。非常经典的结构:...原创 2021-09-06 01:37:50 · 134 阅读 · 0 评论 -
论文阅读: 1505.DeconvNet
1505.04366:Learning Deconvolution Network for Semantic Segmentation结构设计完全对称的结构:有种自编码器的感觉在里面,先编码再解码。这样的结构主要使用了反卷积和上池化。即: 而上池化的实现主要在于池化时记住输出值的位置,在上池化时再将这个值填回原来的位置,其他位置填0即OK。...原创 2021-09-06 01:31:37 · 162 阅读 · 0 评论 -
论文阅读: 1412.Deeplabv1
1412.7062:Semantic Image Segmentation with Deep ConvolutionalDeeplab系列是很成熟优雅的结构,以至于现在的很多改进是基于这个网络结构的进行的。 受制于当时的basemodel发展水平,DeepLabv1仅使用VGGNet进行实验。创新点提出了一种新的卷积:空洞卷积(Atrous Convolution):解决的痛点:普通的卷积和池化层会导致最终的特征图极小,特征图经过上采样再输出成分割结果,这样的上采样就有些“放大过度”了。原创 2021-09-06 01:27:02 · 284 阅读 · 0 评论 -
论文阅读: 1411.FCN
1411.4038:Fully Convolutional Networks for Semantic Segmentation深度学习应用于图像语义分割的开山之作(难免效果很糙),CVPR2015 Best Paper。创新点卷积化(Convolutional): 丢弃全连接,换成卷积层。(已变成了固定结构)分类使用的网络通常会在最后连接几层全连接层,它会将原来二维的矩阵(图片)压扁成一维的,从而丢失了空间信息,最后训练输出一个标量(分类标签)。而图像语义分割的输出需要是个分割图,且原创 2021-09-06 01:12:34 · 139 阅读 · 0 评论