
文献解析paper
文章平均质量分 88
所有最新的顶会文章解析
Akita·wang
ADIC研究生
展开
-
CVPR 2021 论文解读I 动态区域感知卷积,进一步提升分类/检测/分割性能|Dynamic Region-Aware Convolution
Dynamic Region-Aware Convolution摘要介绍方法实验结果总结论文单位:旷视研究院论文链接:https://arxiv.org/abs/2003.12243作者:Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, Jian Sun摘要旷视研究院提出一种新颖的卷积方式,名为动态区域感知卷积(DRConv),它能为特征具有相似表示的相应空间区域自动地分配定制卷积核,相较标准卷积,这种卷积方式大大地增强了对图像语义多样性的建模能力原创 2021-08-01 11:09:39 · 1058 阅读 · 0 评论 -
cvpr2021|Rethinking BiSeNet For Real-time Semantic Segmentation
Paper: https://arxiv.org/abs/2104.13188Code: https://github.com/MichaelFan01/STDC-Seg目录介绍编码网络的设计Short-Term Dense Concatenate Module网络结构解码器的设计Segmentation ArchitectureDetail Guidance of Low-level FeaturesExperiment&ResultCityscapes介绍BiSeNet [28,27]已原创 2021-06-19 19:04:24 · 900 阅读 · 0 评论 -
Selective Kernel Networks|SKNet网络结构概要解读
目录摘要介绍结构Split.Fuse.Select.参数设计原则网络设计参数论文CodeSKNet出发点:构建一种模型,使网络可以根据输入信息的多个尺度自适应的调节接受域大小摘要我们在中枢神经系统中提出了一种动态选择机制,允许每个神经元基于多尺度的输入信息自适应地调整其感受野大小。设计了一种称为选择性核单元的构造块,其中使用由这些分支中的信息引导的softmax注意力来融合具有不同核大小的多个分支。对这些分支的不同关注在融合层产生不同大小的神经元有效感受野。多个存储单元堆叠成一个深度网络,称为选原创 2021-06-01 17:05:49 · 1266 阅读 · 2 评论 -
ResNeSt: Split-Attention Networks
摘要 尽管图像分类模型最近一直在继续发展,但是由于其简单且模块化的结构,大多数下游应用(例如目标检测和语义分段)仍将ResNet变体用作backbone。 我们提出了一个模块化的Split-Attention block,该block可实现跨feature map groups的attention。 通过以ResNet样式堆叠这些Split-Attention块,我们获得了一个称为ResNeSt的新ResNet变体。 我们的网络保留了完整的ResNet结构,可直接用于下游任务,而不会引起额外的计算..原创 2021-05-29 17:24:27 · 758 阅读 · 0 评论 -
CVPR 2021 | 即插即用! CA:新注意力机制,助力分类/检测/分割涨点!
摘要最近关于移动网络设计的研究已经证明了通道注意(例如,挤压和激发注意)对于提升模型性能的显著效果,但是它们通常忽略位置信息,而位置信息对于生成空间选择性注意图是重要的。本文提出了一种新的移动网络注意机制,将位置信息嵌入到信道注意中,我们称之为“协同注意”。与通过2D全局汇集将特征张量转换为单个特征向量的通道注意力不同,坐标注意力将通道注意力分解为两个1D特征编码过程,这两个过程分别沿两个空间方向聚集特征。以这种方式,可以沿着一个空间方向捕获长程相关性,同时可以沿着另一个空间方向保留精确的位置信息。然后原创 2021-05-27 14:33:11 · 4438 阅读 · 0 评论 -
论文解读|BMVC 2019|DABNet: Depth-wise Asymmetric Bottleneck for Real-time Semantic Segmentation
DABNet: Depth-wise Asymmetric Bottleneck for Real-time Semantic SegmentationPaper:DABNetGithub:Code摘要语义分割作为一项像素级的预测任务,需要巨大的计算量和参数才能获得高性能。最近,由于对自主系统和机器人的需求不断增加,在准确性和推理速度之间进行权衡是很重要的。本文提出了一种新颖的深度不对称瓶颈模块来解决这一难题,该模块有效地采用深度不对称卷积和扩张卷积来构建瓶颈结构。基于深度非对称瓶颈网络模块,原创 2021-05-19 15:42:05 · 885 阅读 · 1 评论 -
论文解读|2020TPAMI|Deep High-Resolution Representation Learning for Visual Recognition
用于视觉识别的深度高分辨率表征学习github:https://github.com/HRNet论文地址:https://arxiv.org/pdf/1908.07919摘要高分辨率表示对于位置敏感的视觉问题是必不可少的,例如人体姿态估计、语义分割和对象检测。现有的最先进的框架首先将输入图像编码为通过子网的低分辨率表示,该子网通过串联连接高到低分辨率卷积(例如,ResNet、VGGNet)而形成,然后从编码的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络,命名为高分辨率网络(...原创 2021-04-23 10:03:59 · 3503 阅读 · 0 评论 -
CVPR2020|全文解读|Rethinking Bottleneck Structure for Efficient Mobile Network Design
PDF:https://arxiv.org/pdf/2007.02269.pdfPyTorch:https://github.com/shanglianlm0525/PyTorch-Networks全文简要分析简单来说就是把原来mobilev2中的bottleneck块倒置了一下,原来是在bottleneck之中经过升维后提取特征再降维,他们的工作就是在bottleneck之前先提取特征,之后进行先降维再升维,再次提取特征。主要是作者分析了MobileNetV2网络的bottle...原创 2021-04-14 15:28:09 · 1939 阅读 · 2 评论 -
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
一、研究背景语义分割方法采用了具有编解码结构的全卷积网络——FCN。上下文建模对于语义分割至关重要,通过更大的感受野学习更多的抽象/语义视觉概念。增大感受野最直接的方法是增加卷积网络的深度,但是事实表明,一旦达到一定的深度,增加更多层带来的收益逐渐降低。因此,上下文建模的接收域有限是普通FCN体系结构的一个内在限制。为突破该限制,逐渐提出了如下方法:方法一:直接操作卷积。这包括增大卷积核大小、无卷积和图像/特征金字塔。例如DeepLab引入扩张卷积等等…方法二:将注意力模块集成到FCN体转载 2021-04-06 21:13:22 · 344 阅读 · 0 评论 -
论文解读|ECCV 2020|Feature Pyramid Transformer(特征金字塔转换器)
论文信息一、特征金字塔在介绍这篇文章前,首先需要了解一下特征金字塔:这篇论文是CVPR2017年的文章,采用特征金字塔代替了传统的Scale handling 方法论文链接:https://arxiv.org/pdf/1612.03144.pdfhttps://blog.youkuaiyun.com/xiamentingtao/article/details/78598027https://github.com/kuangliu/pytorch-fpn深度卷积神经网络天然地就能计算出金字塔特征结转载 2021-03-31 16:27:35 · 1696 阅读 · 0 评论 -
论文解析|Bottleneck Transformers for Visual Recognition
先回顾一下用于视觉识别的自注意力方法,比如SANet、ViT、DETR等:本文将介绍的是视觉Transformer的新backbone,之前有代表性的Transformer主干网络有: ViT:用Transformer完全替代CNN 媲美CNN!Facebook提出DeiT:高效图像Transformer,在ImageNet上达84.4%准确率! 现在有非常多的工作就是基于ViT魔改,Amusi 觉得本文分享的BoTNet 应该能助燃视觉Transformer ...原创 2021-03-26 10:00:38 · 2458 阅读 · 0 评论 -
论文解析|ICLR 2021|An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale
这里将介绍一篇我认为是比较新颖的一篇文章 ——《An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale》[1]。因为还是 ICLR 2021 under review,所以作者目前还是匿名的,但是看其实验用到的TPU,能够大概猜出应该是Google爸爸的文章(看着实验的配置,不得不感慨钞能力的力量)。1. Story近年来,Transformer已经成了NLP领域的标准配置,但是CV领域还是CNN(如Re.转载 2021-03-25 10:16:33 · 1605 阅读 · 0 评论 -
论文解析|CVPR2018|ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation
论文原文:ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentationcode:PyTorch作者开源的代码只有训练部分没有测试部分~AbstractERFNet可以看作是对ResNet结构的又一改变,同时也是对ENet的改进。相对ENet,其网络结构的改进,一方面是将residual module改成non-bottleneck module,同时内部全部使用1D的cov(非对称卷积)。..原创 2021-03-17 20:02:41 · 905 阅读 · 1 评论 -
论文解读|IEEE|Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes
Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes发布:IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS原文:原文地址总结在本文中,提出了一种新的实时高性能语义分割方法,以实现在准确性和速度之间的平衡。该方法由四个主要部分组成:LBN-AA、DASPP、SPN和FFN。LBN-AA利用轻量化网络、卷积、卷积关注模块提取特征.原创 2021-03-16 16:58:52 · 497 阅读 · 0 评论 -
文献解读|CVPR2019|APCNet:Adaptive Pyramid Context Network for Semantic Segmentation
论文地址:APCNet:Adaptive Pyramid Context Network for Semantic Segmentation项目代码基于Pytorch,但尚未开源背景最近的研究表明结合上下文特征能够显著的提升深度语义分割模型性能。这些模型的差异仅仅在于在实际中它们构造上下文特征的方式不同。这篇文章首先介绍了语义分割任务中上下文特征的三个理想特性。作者发现尽管Global-guided Local Affinity(GLA)在构建上下文特征时起这重要作用,但是之前的研究者却往..原创 2021-03-11 15:56:05 · 410 阅读 · 0 评论 -
论文解读|CVPR 2020|无公式解读|Strip Pooling:Rethinking Spatial Pooling for Scene Parsing
Strip Pooling:Rethinking Spatial Pooling for Scene Parsing条状池化:重新思考场景解析的空间池Code:源码地址Paper:论文地址目录一、摘要二、介绍2.1 带状池化(Strip pooling)2.2本文贡献三、方法3.1 带状池化模块(Strip Pooling Module/SPM)3.2 混合池化模块(Mixed Pooling Module/MPM)3.3 SPNet整体架构四、实验结果4.1ADE20K数据集4.2 citysca原创 2021-03-08 17:25:24 · 953 阅读 · 0 评论 -
CVPR 2020|图网络引导的实时语义分割网络搜索 (GAS)
论文链接:https://arxiv.org/abs/1909.06793之后代码将会开源:https://github.com/L-Lighter/LightNet作者:林培文*,孙鹏*,程光亮,谢思锐,李玺,石建萍编写:林培文,孙鹏注:本文出自商汤研究院(SenseTime Research)及浙大DCD实验室。原论文发表于CVPR2020,转载需注明作者及出处。摘要设计一个轻量级的语义分割分割网络往往需要研究者经过大量实验从而得到一个在精度和速度之间权衡得比较好的网络,该过程往往是费时、费原创 2021-01-29 15:38:43 · 717 阅读 · 0 评论 -
论文解读|BMVC 2019 |Fast-SCNN Fast Semantic Segmentation Network
论文地址:地址文章目录摘要一、引入二、Fast-scnn架构1.整体架构2.Learning to Downsample3.Global Feature Extractor4.Feature Fusion Module5.Classifier三、实验1、Evaluation on Cityscapes2、Pre-training and Weakly Labeled Data3、Lower Input Resolution4、效果总结摘要编码器-解码器框架是最先进的离线语义图像分割。随着自主系统的原创 2021-01-24 15:35:16 · 831 阅读 · 0 评论 -
论文解析|WACV2021|RGPNET: A REAL-TIME GENERAL PURPOSE SEMANTIC SEGMENTATION
WACV2021|RGPNET: A REAL-TIME GENERAL PURPOSE SEMANTIC SEGMENTATIONRGPNet:一种实时的通用语义分割原文: https://arxiv.org/pdf/1912.01394.pdfPyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks文章目录摘要一、引入二、本文主要贡献三.RGPNet结构3.1组件3.1.1 适配器(Adapter)3.1.2 带标签松弛的渐进原创 2021-01-16 10:21:51 · 470 阅读 · 0 评论 -
论文解读|ICCV2019|Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
标题:Gate - SCNN:用于语义分割的门控形状CNN来源:ICCV2019论文地址:https://arxiv.org/abs/1907.05740Github:https://github.com/nv-tlabs/GSCNN项目地址:https://nv-tlabs.github.io/GSCNN/文章目录摘要一、引入二、相关工作:1.多任务学习2.门控卷积三、Gated Shape CNN(GSCNN)1.Regular stream2.Shape stream3.Fusion Mo原创 2021-01-10 18:51:15 · 1144 阅读 · 1 评论 -
语义分割|ECCV2020|论文无公式解读|Object-Contextual Representations for Semantic Segmentation
ECCV2020:用于语义分割的对象上下文表示文章目录摘要一、OCR方法二、与传统多尺度上下文方法比较三、实验结果四、结论摘要本文研究了语义分割中的上下文聚合问题。由于像素的标签是像素所属对象的类别,我们提出了一种简单而有效的方法-对象上下文表示,通过利用对应物体类别的表示来描述像素,简单来说,就是一个像素对应着一个目的物体的类别,比如某一块汽车中的像素就对应着一个汽车,我们就用汽车来代表描述这个像素。主要思想是显式地把像素分类问题转化成物体区域分类问题,这与语义分割问题的原始定义是一致的,即每一原创 2021-01-03 20:19:17 · 934 阅读 · 0 评论 -
ECCV2020解读:SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation...
目录摘要简介RoadSegSNE结论原文及代码地址摘要无碰撞空间检测是自动驾驶汽车视觉感知的重要组成部分。近年来在数据融合卷积神经网络(CNNs)方面所做的努力,显著改善了语义驱动场景分割。无碰撞空间可以假设为一个地平面,其上的点具有相似的表面法线。因此,本文首先介绍了一种新的模块——表面法线估计器(SNE),它可以从密集深度/视差图像中高精度、高效率地推断出表面法线信息。此外,我们提出了一种数据融合CNN架构,称为RoadSeg,它可以从RGB图像和推断的表面法线信息中提取和融合特征,以实现精确的自原创 2020-12-30 16:55:46 · 869 阅读 · 2 评论 -
论文解析DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and......
文章目录摘要亮点1.空洞卷积2.空洞空间金字塔池化(ASPP)3.条件随机场(CRF)4.实现过程部分效果1.分割的数据对比2.分割的效果对比总结摘要本文提出了一种用于语义分割的DeepLab系统,主要有三大贡献:① 使用“空洞卷积”代替传统的普通卷积;② 提出空洞空间金字塔池化(ASPP)有效地解决图像多尺度问题;③ 使用条件随机场(CRF)对特征图进行后处理,解决了图像边界定位,分割不准确的问题。DeepLab系统结合DCNN在PASCAL VOC-2012语义分割任务中达到当时最好的效果,在其它转载 2020-12-29 17:19:30 · 665 阅读 · 1 评论 -
ECCV2020:Weakly Supervised Semantic Segmentation with Boundary Exploration边界探索的弱监督语义分割解析
ECCV2020:Weakly Supervised Semantic Segmentation with Boundary Exploration边界探索的弱监督语义分割解析引入弱监督方法改进的CAM方法(attention-pooling CAM)基于边界探索的分割方法(BES)Boundary exploration based segmentation如何改变文本的样式问题与改进引入近年来,在场景识别需求的驱动下,人们提出了各种模型来准确分割图像中的前景。如2017年提出的金字塔场景解析网络和一原创 2020-12-29 16:58:25 · 1308 阅读 · 1 评论 -
CVPR2019:High-Resoultion Net(HRNet)论文解析
High-Resoultion Net(HRNet)由微软亚洲研究院和中科大提出,发表在CVPR2019。文章名称:Deep High-Resolution Representation Learning for Human Pose EstimationGithub:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch模型的主要特点是在整个过程中特征图(Feature Map)始终保持高分辨率,这与之前主流方法思路上有很大原创 2020-11-19 15:54:46 · 834 阅读 · 0 评论 -
文献阅读CVPR2020:Combining detection and tracking for human pose estimation in videos
CVPR2020:Combining detection and tracking for human pose estimation in videos(CVPR2020:视频中人体姿态估计的组合检测与跟踪)1、Backgroundmulti-person human pose estimation and tracking in videos(视频中多人人体姿势估计和跟踪)2、Question and difficult·top-down methods do notperfor..原创 2020-11-19 15:40:33 · 1154 阅读 · 0 评论