论文
肥羊汤
我很懒,什么都不想写
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Bounding Box Regression with Uncertainty for Accurate Object Detection
精确物体检测的不确定边界框回归——KL损失(解读)(源论文)损失模型KL损失的网络架构用于评估本地化信心。与两级检测网络的标准Fast R-CNN头不同,我们的网络计算标准偏差和边界框位置,这在我们的回归损失kl损失中被考虑到。模型个人理解:模型的三个分支,分别是:Class:是图像的类别 Box:是预测的框 Box std:是预测框的四个坐标(左上角和右下角两个点的四...原创 2019-04-04 13:01:44 · 3459 阅读 · 4 评论 -
A Simple Pooling-Based Design for Real-Time Salient Object Detection
一种基于简单池化的实时显着目标检测——PoolNet(解读)(原论文)摘要通过研究如何扩展卷积神经网络中池化部分来解决显着目标检测问题。网络基于U形结构,贡献有:首先在自下而上的路径上构建全局引导模块(GGM),旨在为不同特征层提供潜在显着对象的位置信息。 设计了一个特征聚合模块(FAM),使粗级语义信息与自上而下的路径中的精细级别特征完美融合。通过在自上而下路径中的融合操作之...原创 2019-05-12 11:02:13 · 2737 阅读 · 2 评论 -
Densely Connected Convolutional Networks
密集连接的卷积网络——DenseNet(解读)(原论文)摘要如果卷积网络包含接近输入的层和接近输出的层之间的较短连接(残差连接/跳过连接),则卷积网络可以更深,更准确,更有效。 密集卷积网络(DenseNet),以前馈的方式将每一层连接到后面的每一层。 而具有L层的传统卷积网络每层与其后续层之间的连接具有L个。 DenseNet 网络具有L(L + 1)/2个直接连接。 对于每个图层,所有...原创 2019-05-16 12:21:57 · 1569 阅读 · 0 评论 -
Deep Layer Aggregation
深层聚合——DLA(解读)(原论文)本文目的(个人理解:IDA是层间,HDA是层内)通过更深入的聚合来扩充标准体系结构,以更好地融合各层的信息。 深层聚合结构以迭代和分层方式合并特征层次结构,使网络具有更高的准确性和更少的参数。主要研究如何聚合层以更好地融合语义和空间信息以进行识别和定位。扩展当前方法的“浅层”跳过连接,文中的聚合架构包含更多深度和共享。文中介绍了两种深层聚合(DLA)...原创 2019-05-15 19:53:04 · 1007 阅读 · 0 评论 -
Camera Relocalization by Computing Pairwise Relative Poses Using Convolutional Neural Network
利用卷积神经网络计算成对相对姿态的相机重定位(解读)(原论文)摘要文中提出的基于深度学习的相机重定位方法。通过使用卷积神经网络(CNN)来定位给定的查询图像,用于首先检索类似的数据库图像,然后预测查询与其姿势已知的数据库图像之间的相对姿势。查询图像的摄像机位置是通过使用基于RANSAC的方法的两个相对平移估计的三角测量获得的。每个相对姿势估计提供相机方向的假设,并且它们在第二RANSAC方...原创 2019-05-14 17:11:28 · 1078 阅读 · 0 评论 -
Macro-Micro Adversarial Network for Human Parsing
用于人体解析的宏-微对抗网络——MMAN(解读)(原论文)像素级分类缺点:由于其低层次局部不一致性和高层次语义不一致性而使损失产生倒退。对抗性网络的引入使用单个鉴别器解决了这两个问题。然而,两种类型的解析不一致性是由不同的机制产生的,因此单个鉴别器很难解决它们。为解决这两种不一致问题,文中提出了宏 - 微对抗网络(MMAN)。有两个鉴别器:鉴别器Macro D:作用于低分辨率标签图并且惩罚...原创 2019-04-22 21:03:35 · 1024 阅读 · 0 评论 -
FPN:Feature Pyramid Networks for Object Detection
用于目标检测的特征金字塔网络——FPN(解读)(原论文)FPN架构将低分辨率语义强大的特征与高分辨率语义较弱的特征相结合,通过横向连接的自上而下的架构构建一个特征金字塔,用于在所有尺度上构建高级语义特征图。其他方法与FPN模型对比(a)使用图像金字塔构建特征金字塔。 在每个图像比例上独立地计算特征,这是缓慢的。(b)仅使用单一尺度的特征来加快检测速度。(c)重用由ConvNet计算...原创 2019-04-15 13:32:31 · 422 阅读 · 0 评论 -
Parallel Feature Pyramid Network for Object Detection
用于目标检测的并行金字塔网络——PFPNet(解读)(原论文)网络模型PFPNet中的可视化通道不仅保留了对象的精细细节,还保留了与精确对象位置重叠的一致的高激活值。模型对比使用单尺度特征层进行视觉识别的变体DCNN模型及其对特征金字塔的扩展:自下而上的DCNN模型(a),沙漏网络(b)和基于SPP的网络(c); 文中的网络模型(d)可以被视为(c)的扩展版本,用于多尺度物...原创 2019-04-26 15:49:55 · 798 阅读 · 0 评论 -
ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation
ENet:一种实时语义分割的深度神经网络体系结构(解读)(原论文)分割任务深度神经网络缺点计算量大,具有需要大量浮点运算 运行时间长,具有阻碍其可用性的运行时间较长的缺点网络体系结构图中,downsampling是下采样;dilated是空洞卷积;asymmetric是非对称卷积;upsampling是上采样。文中没有在任何投影中使用偏置,以减少内核调用和整体内存操作的数量...原创 2019-04-13 14:38:25 · 976 阅读 · 0 评论 -
Pyramid Scene Parsing Network
金字塔场景解析网络——PSPNet(解读)(原论文)文中提出了金字塔池模块和金字塔场景解析网络(PSPNet),通过基于不同区域的上下文聚合来利用全局上下文信息的能力。全局先验表示有效地在场景解析任务中产生高质量的结果,而PSPNet为像素级预测提供了优越的框架。所提出的方法在PASCAL VOC 2012上获得了mIoU准确率85.4%的新记录,在Cityscapes上获得了80.2%的准确...原创 2019-04-16 13:33:43 · 551 阅读 · 0 评论 -
Deformable Convolutional Networks
可变形卷积网络——DCNet v1(解读)(原论文)CNN类型网络存在的问题CNN本质上仅限于模拟大型未知变换。 限制源于CNN模块的固定几何结构:卷积单元在固定位置对输入特征图进行采样; 池化层以固定比率降低空间分辨率; RoI(感兴趣区域)汇集层将RoI分成固定的空间区间等。缺乏处理几何变换的内部机制,这会引起明显的问题。论文改进引入可变形卷积和可变形RoI池化两个新...原创 2019-04-09 17:06:03 · 416 阅读 · 0 评论 -
Spatiotemporal CNN for Video Object Segmentation
用于视频对象分割(vos)的时空CNN——STCNN(解读)(原论文)STCNN模型本文提出的方法由两个分支组成,即时间相关分支和空间分割分支。具体地,从未标记的视频数据以对抗方式预训练的时间相关分支被设计为捕获视频序列的动态外观和运动线索以指导对象分割。空间分割分支是一个完全卷积网络,它侧重于基于所学习的外观和运动线索准确地分割对象。为了获得准确的分割结果,设计了从粗到精的过程,以便...原创 2019-04-15 21:45:07 · 2780 阅读 · 1 评论 -
Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression
广义相交:边界框回归损失度量(解读)(原论文)IoU不能作为损失函数的原因:IoU在边界框与坐标轴对齐的情况下,可以用作回归损失。但是存在一种情况,当预测框与真实框不重叠的情况下,用IoU作为损失函数是不可行的。因为IoU是预测框A与真实框B的交并比,即IoU=|A∩B| / |A∪B|,如果预测框与真实框不重叠,那么A∩B=0,则IoU=0。此时继续进行迭代,剃度为0,不能优化参数,该损...原创 2019-04-02 13:06:34 · 807 阅读 · 0 评论 -
Selective Kernel Networks
选择核心网络——SKNet(解读)(源论文)SK模型文章指出,在神经科学界,视皮层神经元的感受野大小受刺激的调节,即对不同刺激,卷积核的大小应该不同,但这在构建CNN时一般在同一层只采用一种卷积核,很少考虑多个卷积核的作用。文中提出了一种在CNN中对卷积核的动态选择机制,该机制允许每个神经元根据输入信息的多尺度自适应地调整其感受野(卷积核)的大小。设计了一个称为选择性内核单元(SK)的...原创 2019-04-05 21:30:33 · 9217 阅读 · 2 评论 -
Squeeze-and-Excitation Networks
SENet:挤压和激励网络(解读)(源论文)文章提出了一个新的单元——SE block ,通过明确地建模通道之间的相互依赖性来自适应地重新校准通道方面的特征响应。展示了这些块可以堆叠在一起形成SENet体系结构,可以跨不同数据集非常有效地进行泛化。Squeeze: Global Information Embedding(全局信息嵌入)为了解决利用通道依赖性的问题,首先考虑输出功能...原创 2019-04-04 21:33:19 · 666 阅读 · 0 评论 -
Full-Frame Scene Coordinate Regression for Image-Based Localization
基于图像定位的全帧场景坐标回归(解读)(原论文)贡献文中only-RGB的两阶段定位流水线,提出了一种用于场景坐标回归的全帧CNN。这个全帧坐标CNN被训练为从给定的RGB图像预测生成密集的场景坐标。在回归过程中编码更多的全局上下文容易过度拟合。因此,建议使用数据扩充来缓解这个问题。本文的贡献总结如下:采用完全卷积的编码-解码对基于两阶段图像的定位的场景坐标回归进行编码,以编码更多...原创 2019-05-12 22:09:39 · 827 阅读 · 0 评论
分享