
图像&视频分割
文章平均质量分 92
语义分割算法,静态/视频
m_buddy
大表哥,还有大招吗... PS:本人所有文章均免费公开,任何收费条目请咨询平台
展开
-
《SegFormer:Simple and Efficient Design for Semantic Segmentation with Transformers》论文笔记
介绍:这篇文章提出的分割方法是基于transformer结构构建的,不过这里使用到的transformer是针对分割任务在patch merge、self-attention和FFN进行了改进,使其更加适合分割任务(无需position-encoding,测试图片的尺寸带来的影响更小)对上下文语义信息和局部细节信息的需求并且更加整体模型轻量化,同时得益于transformer强大的上下文感知能力使得对于解码器只使用简单的几层全连接便可达到更好的分割性能。原创 2022-08-20 23:59:34 · 901 阅读 · 0 评论 -
《CTDNet:Complementary Trilateral Decoder for Fast and Accurate Salient Object Detection》论文笔记
参考代码:CTDNet1. 概述导读:这是一篇关于显著性目标检测的文章,文章对影响显著性目标检测的网络各个部分进行探究,也就是将需要在一张图像中获取的信息划分为3个部分:语义上下文信息、像素空间信息、显著性目标边界信息,对应的特征图的层级也是由高到低。在这篇文章中比较清晰明了总结出了影响显著性目标检测性能的几个因素,因而以此为基础针对性设计网络结构,使得整体网络展现除了较高的运算效率(排除一些冗余部分),基于ResNet-18的网络能在1080 Ti GPU上跑到180FPS,大一些基于ResNet-原创 2021-11-14 19:27:15 · 3579 阅读 · 0 评论 -
《Robust High-Resolution Video Matting with Temporal Guidance》论文笔记
主页:homepage参考代码:RobustVideoMatting1. 概述导读:这篇文章提出了一种视频场景下的实时matting算法(1080Ti GPU下4K分辨率76 FPS,HD分辨率104 FPS),在算法中考虑了视频的时序特性,在解码器单元中增加了ConvGRU(输入的维度为[B∗T∗3∗H∗W][B*T*3*H*W][B∗T∗3∗H∗W]),用于进行帧间信息传导,从而提升视频matting的稳定性(同时引入了视频时序相关损失也有此目的)。在此基础上融合语义分割与matting任务,使原创 2021-09-14 23:02:11 · 4155 阅读 · 0 评论 -
《UPSNet:A Unified Panoptic Segmentation Network》论文笔记
参考代码:UPSNet1. 概述导读:在这篇文章中提出了一种端到端的全景分割方法,其在Mask RCNN的基础上通过添加一个语义分割分支,之后使用一个无参数的全景分割预测头使用之前预测头的输出(指的是使用了这部分的参数)经过整合实现全景分割。为了解决语义分割和实例分割之间的冲突,文章在全景分割的预测结果中添加一个未知的类别(文中指出是按照规则选择一定的比例实例作为未知类别),从而使得其在性能指标上表现更佳。全景分割解决的是实例分割/语义分割融合的方法,这篇文章中将全景分割的目标是否可数性质划分为两原创 2021-05-06 22:54:25 · 492 阅读 · 2 评论 -
《VPS:Video Panoptic Segmentation》论文笔记
参考代码:vps1. 概述导读:文章的这篇文章整合了全景分割(实例分割+语义分割)和视频分割算法,从而得到在视频场景下的全景分割算法。其算法是构建在Mask RCNN/ MaskTrack RCNN/ UPSNet的基础之上,但是在这个基础之上文章还强调了视频时序中信息的萃取(spatial-temporal attention),从而增加了视频中实例的分割性能鲁棒性(也就是文章中提到的pixel level fusion)。针对文章的任务,作者在全景分割的基础上提出了视频场景下的性能评价指标VPQ(原创 2021-05-06 22:57:50 · 1143 阅读 · 4 评论 -
《MaskTrackRCNN:Video Instance Segmentation》论文笔记
参考代码:MaskTrackRCNN1. 概述导读:这篇文章是字节的大佬开辟的一个新坑——视频实例分割(Video Instance Segmentation),其完成的任务是在一个视频序列里面实现所有定义的实例目标的检测/分割/跟踪。这篇文章是在Mask RCNN的基础上通过添加一个额外的track head实现的。这篇的核心贡献主要有两点:提供了在视频实例分割下不同实例之间构建相似矩阵并进行训练的方法以及公开了一个名为Youtube-VIS的数据集。但是文章的方法只使用到了很少的视频时序信息更多的原创 2021-04-19 01:06:19 · 2355 阅读 · 0 评论 -
《HRNet-OCR:Object-Contextual Representations for Semantic Segmentation》论文笔记
参考代码:HRNet-OCR1. 概述导读:这篇文章研究了语义分割中上下文信息的提取与表达,其方法设计的灵感来自于:分割中一个像素的label是其对应目标(object)的类别,那么基于此文章便是通过不同object区域的表达去关联并表达一个像素(特征图上)的信息,从而建立更加具有区分性质的上下文信息。对此完成该目的需要3个步骤:1)通过在GT的监督训练下得到图片的分割结果;2)在分割结果的基础上按照分割的类别划分区域(对应文章的object),使用区域中像素去计算区域的表达(OCR,Object原创 2021-04-03 15:08:06 · 1634 阅读 · 1 评论 -
《(DEXTR)Deep Extreme Cut:From Extreme Points to Object Segmentation》论文笔记
主页:dextr参考代码:DEXTR-PyTorch1. 概述导读:这篇文章算是交互式分割种比较具有典型的了,在这篇文章中提出了一种使用极点作为引导,从而实现目标区域分割的方法。添加的引导不区分正负样本属性,只是去定义目标的边界,因而会在对应输入的卷积上添加1个channel就可以了。刚接触交互式分割的同学可以看看这篇文章,但是其也存在一些痛点问题。文章的方法使用极点的形式作为引导,框出目标大致出现的位置,从而进行分割,其在一些图片上的结果见下图所示:但是这样的方法在实际的过程中却存在下面的原创 2021-04-01 20:21:49 · 716 阅读 · 1 评论 -
《Reviving Iterative Training with Mask Guidance for Interactive Segmentation》论文笔记
参考代码:ritm_interactive_segmentation1. 概述导读:这篇文章提出了一种无需back propagation的交互式分割方法,只需要提供简单的点击进行分割,在一次点击交互性能不满足的情况下还可以使用上一次的预测mask加上当前次的点击交互进行弥补。这篇文章于一般来讲的交互式分割方法差异不大(都是在分割网络的基础上进行改进而来),但是在细节的处理上比较恰当,如交互先验信息的引入方式/损失函数优化/交互先验信息如何融合等进行了讨论。此外,训练数据的质量和数据量也是影响性能的很原创 2021-04-03 12:44:24 · 1703 阅读 · 0 评论 -
《IOG:Interactive Object Segmentation with Inside-Outside Guidance》论文笔记
参考代码:Inside-Outside-Guidancepaper数据集:Pixel-ImageNet1. 概述导读:这篇文章提出了一种新的交互式分割算法,其通过inside-outside guidance(IOG)引导分割网络生成更加精细的分割结果(也就是目标bounding box的左上和右下两个顶点和目标中心的点)。inside guidance是指目标区域的中心位置的点,用以标明前景信息,而outside guidance是目标区域之外的点,用以标明背景信息。这样进行交互引导的好处体现为:原创 2021-04-07 00:15:09 · 2465 阅读 · 0 评论 -
《MODNet:Is a Green Screen Really Necessary for Real-Time Portrait Matting?》论文笔记
参考代码:MODNet1. 概述导读:这篇文章提出了一种trimap-free的matting方法,其matting的过程是一个将原图像拆分与组合的过程,这也是文章方法很大的优势。在文章中将matting的过程划分为三个部分:整图目标区域语义信息提取(semantic estimation)/半透明区域细节优化(detail prediction)/语义信息与细节信息的融合预测(semantic-detail)。一般的matting模型会在训练集上表现出过拟合的特性,导致其在真实的环境下性能表现不佳,原创 2021-03-16 13:15:35 · 1073 阅读 · 0 评论 -
《MGMatting:Mask Guided Matting via Progressive Refinement Network》论文笔记
参考代码:MGMatting1. 概述导读:在这篇文章中提出了基于引导(guidance)的matting方法,其引导主要体现为extra-guidance和self-guidance。其中extra-guidance是通过在输入端添加三色图/分割mask/低质量alpha图,从而给网络以先验知识。对于self-guidance是在decoder的不同stage上通过添加PRN(Progressive Refinement Network)实现的,其中会将上一个stage的输出作为当前stage的g原创 2021-02-18 23:32:38 · 2535 阅读 · 3 评论 -
《Background Matting V2:Real-Time High-Resolution Background Matting》论文笔记
主页:background-matting-v2参考代码:BackgroundMattingV21. 概述导读:这篇文章在之前V1版本(在512*512输入的情况下只能跑到8FPS)的基础上针对高分辨率(HD,4K画质)提出了一种设计巧妙的matting方法,文章将其称之为之前方法的V2版本。该方法中将整个pipeline划分为两个部分:base和refine部分,前一个部分在缩小分辨率的输入下生成粗略的结果输出,其主要用于提供大体的区域位置定位(coarse predcition)。后一个网络在该原创 2021-03-03 13:15:27 · 5000 阅读 · 5 评论 -
《Castle in the Sky:Dynamic Sky Replacement and Harmonization in Videos》
参考代码:SkyAR1. 概述这篇文章提供了一套自动替换天空的方法,无需使用诸如惯性传感器的辅助信息,只需要提供视频数据便可以完成天空分割和背景替换融合,最后的得到的效果质量还挺好。文章的整体pipeline大体可以分为以下3个部分:1)sky matting:参考matting的思路将天空从背景中分离出来,得到高质量的天空alpha预测结果。并且基于matting的分割相比传统分割能够带来软化的过度,从而使得matting之后的结果在融合之后显得更加自然;2)motion estimator:原创 2021-02-13 10:41:44 · 538 阅读 · 2 评论 -
《Background Matting:The World is Your Green Screen》论文笔记
主页:background-matting参考代码:Background-Matting1. 概述导读:这篇文章对于自然场景下人像抠图提出了一种新的matting方法,在该方法中引入一张背景图片作为参考,此后尽量保持背景画面不动(手持设备存在合理的抖动也可以),将语义分割模型的分割结果/前后帧(可选)也引入作为额外的依据信息。为了使这些信息能够发挥最大的作用,文章引入了一个CS(Context Switching block )模块去有效选取有用信息,从而经过解码器之后得到更加准确的matting结原创 2021-03-02 13:06:46 · 769 阅读 · 0 评论 -
《A Late Fusion CNN for Digital Matting》论文笔记
参考代码:FusionMatting1. 概述导读:这篇文章提出了一种仅依赖RGB输入进行matting的方法,文章使用DensNet-201组成5个stage的编码器,之后跟两个解码器,用于预测前景alpha和背景的alpha,这样带来的好处是使得网络自由度更高。为了更近一步优化最后alpha的预测结果,而不是前景背景对应位置去argmax,文章通过一串卷积操作组成一个fusion模块,去优化alpha的预测结果。这样的方法相对于依靠trimap的方法其预测难度加大,因而网络的设计也变得复杂,而且训原创 2021-01-10 14:15:00 · 441 阅读 · 1 评论 -
《Context Encoding for Semantic Segmentation》论文笔记
参考代码:PyTorch-Encoding1. 概述导读:在这篇文章中研究了CNN特征图的全局上下文信息对于分割的影响,文章指出像之前工作中通过增加CNN网络感受野或者使用膨胀卷积,那么这样就能很好提取全局的上下文语义信息么?对此文章借鉴了channel-wise attention的思路对特征图进行优化,而对于目标分割任务(或者分类任务)提出了基于attention机制的Enc模块,使用attention的方式(编码器不同)增强特征的表达(Context Encoding Module)。此外对于传原创 2020-12-01 00:21:57 · 390 阅读 · 0 评论 -
《CCNet:Criss-Cross Attention for Semantic Segmentation》论文笔记
参考代码:CCNet1. 概述导读:CNN网络中较大范围的依赖(long-range dependencies)可以捕捉到很多有用的上下文信息,这个特性在图像理解任务中具有重要作用(如分割)。文章在参考non-local设计理念的基础上使用在像素点位置十字交叉的方式进行attention操作,用以获取丰富的上下文信息,提出由CCA模块构建的CCNet(criss-cross Network)。文章的方法相比之前的non-local具有如下两个优点:1)相比non-local在显存上的开销更小,之间差原创 2020-11-09 21:57:17 · 683 阅读 · 0 评论 -
《SAT:State-Aware Tracker for Real-Time Video Object Segmentation》论文笔记
参考代码:video_analyst1. 概述导读:文章针对半监督(给定首帧标注数据)的VOS(video objet segmentation)任务提出了一种新的处理pipline(segmentation/ state estimation/ feedback),称为SAT(state aware tracker),其可以实时生成准确的分割结果(很大程度提升点来自correlation)。为了整个pipeline的高效这里也使用了视频帧内在联系,同时为了生成的结果更加稳定鲁棒,引入了两个回馈环(由原创 2020-11-08 21:24:38 · 919 阅读 · 0 评论 -
《HOP-Matting:Hierarchical Opacity Propagation for Image Matting》论文笔记
参考代码:HOP-Matting1. 概述导读:现有的一些深度学习的matting方法是基于propagation的,这篇文章对此提出了多层次不透明度propagation(hierarchical opacity propagation,HOP)的方法,用于像素之间的不透明度传导。文章的HOP结构具有一个global和多个local的propagationmo模块,从而使得高分辨特征图下的每对像素点可以根据输入图像的外表特征连接起来。此外文章还提出了一种尺度不敏感的编码方式用于解决非固定尺度的图片输原创 2020-11-01 18:51:31 · 627 阅读 · 0 评论 -
《ADVENT:Adversarial Entropy Minimization for Domain Adaptation in Semantic Segmentation》论文笔记
参考代码:ADVENT1. 概述导读:由于在训练场景和测试场景存在偏差(domain-shift),因而就会使得训练场景(source域)下的精度在测试场景(target域)下下降的问题。这篇文章针对分割场景下的domain adaptation问题提出在像素预测结果上使用基于熵的损失,既是文章为domain adaptation提出两种损失:entropy loss和GAN的对抗损失,从而降低文章提出的target图像的熵值。从source域到target域的切换会存在性能的损失,那么这个损失的原创 2020-10-24 18:53:54 · 1515 阅读 · 2 评论 -
《AdaptSegNet:Learning to Adapt Structured Output Space for Semantic Segmentation》论文笔记
参考代码:AdaptSegNet1. 概述导读:这篇文章着力于解决模型未见过数据的适应性,一般来讲模型对于与训练集中数据类似的数据表现较好,但是对于未知场景的数据就表现较差了,这也是domain-adaptation需要解决的问题。这篇文章在分割任务下进行了研究,提出在output space(分割softmax输出)上使用GAN网络去拟合两种数据(合成数据与真实数据)分布,此外还提出使用多层GAN监督的形式优化特征的分布。之前的一些domain adaptation的工作是在feature层次上原创 2020-10-13 23:26:08 · 1679 阅读 · 0 评论 -
《Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision》论文笔记
参考代码:IntraDA1. 概述导读:在分割分割模型的训练往往需要较多的人工标注数据,但是获取这些标注的成本是较为昂贵的,一种较为廉价的方式就是使用图形生成器去生成虚拟的训练数据,之后通过DA(Domain Adapting)的方式进行域迁移,从而使得在真实数据上的效果得到提升。但是这种生成(仿真)数据与真实数据(包含了运用/光照/天气/阴影等多种因素影响)之间是存在domain gap的,之前的一些工作着力于缩小仿真数据与真实数据集的差异(也就是文章说的inter-domain),但是却很少考虑到原创 2020-10-11 22:47:12 · 1301 阅读 · 7 评论 -
《ContextNet:Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation》论文笔记
参考代码(训练部分未公开):ContextNet现有的一些基于CNN网络的matting网络都是使用三色图与原始图像作为输入,之后输出这张图对应的alpha图。而这篇文章则同时输出前景图和alpha图,对此文章提出了两个编码器:matting编码器(matting encoder,ME)和context编码器(context encoder,CE),分别用于获取表征范围在局部和较大范围的信息,之后将编码之后的两个特征进行concat,经过也是两个解码器得到需要的alpha图和前景图。对此文章还引入了两个损原创 2020-10-10 23:18:57 · 1452 阅读 · 0 评论 -
《Deep Image Matting》论文笔记
参考代码:Deep Matting1. 概述导读:这篇文章是在深度学习基础上进行抠图,之前也有基于此的工作,但是那些方法存在前景背景区域颜色接近或是有复杂纹理的时候表现欠佳。文章对于这些方法效果差的原因进行分析并归纳为:网络中只使用了低层次的细节信息,而忽略或是缺少高层次的上下文信息。文章针对上面提到的两个问题提出了一种新的抠图方法,该方法有两个部分组成:1)由CNN网络构建的编解码结构,使用三色图和原图作为输入,输出预测出来的alpha图;2)在前一个部分输出的基础上使用一个小的卷积网络去优化预原创 2020-10-02 10:06:18 · 635 阅读 · 0 评论 -
《Indices Matter(IndexNet):Learning to Index for Deep Image Matting》论文笔记
参考代码:IndexNet1. 概述导读:这篇文章是从采样的角度去思考其对matting(segmentation)的影响,文章发现使用indices-guided的pooling/unpooling操作能在生成结果的边缘上比双线性插值类方法获取细节更加精细的结果,并且现有的上采样操作理论上都可以与index function思想统一(图像差值可以看作是一种特殊的index function,从而转换到mask,矩阵运算的形式表示)。在此基础上文章将indices作为特征图对应的功能,从而在训练的过程原创 2020-09-25 20:40:22 · 2105 阅读 · 0 评论 -
《GCAMatting:Natural Image Matting via Guided Contextual Attention》
参考代码:GCA-Matting1. 概述导读:现有基于深度学习的Matting方法已经取得了较为不错的成果,但是这些方法在半透明区域取得的结果却是结构和纹理上模糊的,并没有很好区分出前景区域。这篇文章使用所在已知区域周围信息去预测所在位置的不透明度,既是基于affinity-based方法和inpainting任务重上下文注意力机制(contextual attention)提出了一种end-to-end带GCA(guided contextual attention)模块的Matting方法。GC原创 2020-09-22 21:22:29 · 3200 阅读 · 0 评论 -
《Decoders Matter for Semantic Segmentation》论文笔记
参考代码:DUpsampling1. 概述导读:目前流行的语义分割网络架构都是编解码结构的,往往在解码器的最后是添加一个upsampling(图像的双线性插值)实现decoder输出与训练标注的尺寸一致,但是对于这样的实现文章指出这是一种过于简单且非数据依赖的操作,可能会导致结果并非最优。对此这篇文章从upsampling角度出发,从而提出了一种新的上采样方式DUpsampling(data-dependent upsampling),文章提出的方法使用最小化映射误差的方式计算变化矩阵(可以通过1∗1原创 2020-08-30 18:31:54 · 533 阅读 · 0 评论 -
《STM:Video Object Segmentation using Space-Time Memory Networks》论文笔记
参考代码:STM1. 概述导读:在视频分割任务中网络从视频帧中获取到的目标信息会随着分割的进行逐渐丰富起来,现有的一些分割方法确实或多或少地采用了之前帧的分割结果,但是并没有将当前帧之前的所有帧得到的信息进行融合,帮助当前帧进行分割,因而这篇文章就是从这角度出发,构建一个大的memory池子从而提出了一种半监督的视频分割方法STM(Spatial-Time Memory Network ),将当前帧的信息与之前帧的所有信息在空间与时序维度上进行特征匹配,从而得到超过之前方法的性能表现,由于采用了之前帧原创 2020-07-19 00:27:59 · 3052 阅读 · 0 评论 -
《FRTM:Learning Fast and Robust Target Models for Video Object Segmentation》论文笔记
参考代码:frtm-vos1. 概述导读:这篇文章针对视频分割问题提出了一种新的算法frtm-vos,这个算法主要由两个部分组成:target appearance model(文中也叫:light-weight discriminative target model)和segmentation model。这两个子模块分别完成粗略目标分割图的生成和精细分割图的生成,对于target appearance model它通过在infer的时候使用快速收敛的优化算法(GN-CG,Gauss-Newton原创 2020-07-13 00:55:47 · 1140 阅读 · 0 评论 -
《TDNet:Temporally Distributed Networks for Fast Video Semantic Segmentation》论文笔记
代码地址:TDNet1. 概述导读:这篇文章提出了一个基于时序分布网络的视频语义分割算法TDNet(Temporally Distributed Network),它的设计思想来自于这么一个观察:较深的网络输出的特征是可以由一系列的浅层网络输出的特征进行组合得到。而在视频分割任务中视频是具有时序属性的,而且视频分割也是有时序属性的,因而就可以在一定的时序范围内使用浅层的网络进行特征抽取,之后在经过组合可以达到深层网络输出特征的效果。这样的思路迁移也是相当简单的,那么怎么来实现文章中说的将多个浅层特征进原创 2020-06-25 16:26:56 · 2622 阅读 · 3 评论 -
《A Transductive Approach for Video Object Segmentation》论文笔记
参考代码:transductive-vos.pytorch1. 概述导读:现有的很多视频分割算法是依赖在外部训练好的额外模块实现的,如光流网络与实例分割,这就导致了这些方法在传统基准上无法与其它方法媲美。为此文章提出了一个简单且强大的传导方法来解决这个问题,这个方法不需要额外的子计网络模块,数据,或是专用的网络结构。在文章的方法使用标注传导的方式,它是在特征空间上基于特征相似性实现分割中像素信息的传导。与之前的一些短依赖不同的是文章采用了“全局”的方式,将较为长期的目标特性考虑在内,从而有较好的帧间一原创 2020-06-21 11:58:54 · 1246 阅读 · 0 评论 -
《CBAM: Convolutional Block Attention Module》论文笔记
参考代码:CBAM.PyTorch1. 概述导读:这篇文章通过在卷积网络中加入Attention模块,使得网络的表达能力得到提升,进而提升网络的整体性能。文章的Attention模块是在卷积特征的channel于spatial两个维度上先后做Attention操作,之后得到增强之后的特征。并且这个Attention模块具有极佳的模块化性能能够很方便的集成到现有的网络中去,从而带来性能上的提升。在文章中需要优化的特征图为F∈RC∗H∗WF\in R^{C*H*W}F∈RC∗H∗W,经过channel原创 2020-06-17 23:31:00 · 578 阅读 · 0 评论 -
《DANet:Dual Attention Network for Scene Segmentation》论文笔记
代码地址:DANet/1. 概述导读:这篇文章通过self-attention机制去捕获更加丰富的上下文信息,并不同于之前的一些工作是在多个尺度(ASPP,Unet形式的网路等)上去获取上下文信息,这篇文章使用channel-wise和spatial-wise两种方式的attention机制在一个尺度(dilation FCN基础上)的特征图进行特征优化,之后再将这些特征elment-sum相加起来得到最后的融合特征(当然实际的处理并不是这么直接,论文里面的代码在细节上还是做了一些trick),从而构原创 2020-06-13 21:31:13 · 522 阅读 · 0 评论 -
《RGMP:Fast Video Object Segmentation by Reference-Guided Mask Propagation》论文笔记
参考代码:暂无1. 概述导读:这篇文章在Siamese编解码网络结构的基础上,将视频分割网络中的mask传导与目标检测思想(数据增广的时候)相结合,克服彼此存在的问题,从而构建除了一个新的视频分割的网络,并且其速度还挺快,能跑到大概10FPS(ResNet-50的backbone,并不需要任何在线学习与后处理)。并且文章的方法能够实现单目标与多目标分割,在对应的数据集上分割性能与运算速率较好的分割结果。在视频分割领域中一般的方法主要分为两个流派,一个是基于帧间mask传递与基于检测的,他们有各自的原创 2020-06-06 22:02:26 · 1036 阅读 · 0 评论 -
《Context Prior for Scene Segmentation》论文笔记
代码地址(暂未开源):ContextPrior1. 概述导读:现有分割算法中会去充分获取并利用输入数据的上下文信息,但是这些方法并没有有效区分这些上下文信息来自的类别(缺少监督),文章指出这样会给网络理解需要分割的图像造成困扰(带来错误分类的情况),因而在这篇文章中直接去监督特征融合,使得可以区分类内和类间的上下文。要实现上面的目标文章提出了带有相关性损失(Affinity Loss)的Context Prior Layer去获取一个理想的相关性特征图(这是通过GT监督获取的),从而去监督上下文信息的原创 2020-06-06 17:43:04 · 739 阅读 · 0 评论 -
《Strip Pooling:Rethinking Spatial Pooling for Scene Parsing》论文笔记
代码地址:SPNet1. 概述导读:池化操作是在逐像素预测任务中获取较大感受野范围较为高效的做法,传统一般采取N∗NN*NN∗N的正规矩形区域进行池化,在这篇文章中引入了一种新的池化策略,就是使用长条形的池化kernel来实现池化,即是池化的核心被重新设计为N∗1,1∗NN*1,1*NN∗1,1∗N,从而构建了strip pooling操作。这个操作的引入使得网络可以更加高效获取网络大范围感受野下的信息,在这个理念的基础上搭建了使用多个长条池化层构建的新模块Strip Pooling Module(S原创 2020-05-30 23:54:10 · 1785 阅读 · 2 评论 -
《Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks》论文笔记
参考代码:暂无1. 概述原创 2020-04-18 11:01:34 · 458 阅读 · 0 评论 -
《Robust Multiple Object Mask Propagation with Efficient Object Tracking》论文笔记
参考代码:暂无1. 概述导读:交互的视频目标分割拥有两个比较核心的操作:交互式的图像目标分割(将用户给的交互信息【方框、点击等,与文中tracker对应】与RGB图像、前一帧分割结果【可选】送入CNN模型)与视频目标mask的传导(与DeepLab v3+分割网络对应)。这篇文章将这两个步骤看成是相互独立的部分,主要的工作重点在后一个步骤中,文章引入目标跟踪为目标提供一个RoI区域,这样可以...原创 2020-04-14 22:19:43 · 252 阅读 · 0 评论 -
《Lucid Data Dreaming for Video Object Segmentation》论文笔记
参考代码:LucidDataDreaming1. 概述导读:文章针对在运动场景下需要高质量表现模型(VOS)的训练过程进行了探究,一般来讲训练这些模型到较高的性能,需要较多样的数据,这就需要较多的数据量,而这篇文章中比较有意思的点是提出了一种数据合成方法lucid data dreaming,文章使用这样的数据增广方式可以将需要的数据量减少20~1000倍,但是取得的效果能够与采用原始方法进...原创 2020-04-07 00:01:20 · 928 阅读 · 0 评论