
深度学习相关的论文阅读
文章平均质量分 92
深度学习相关的论文阅读:以视觉相关为主,包括分类、语义分割、目标检测、实时语义分割、点云的分割检测、关节点的估计等
magic_ll
有空就记记,没空就休息
展开
-
【论文阅读】Segment Anything论文梳理
Abstract我们介绍了Segment Anything(SA)项目:新的图像分割任务、模型和数据集。高效的数据循环采集,使我们建立了迄今为止最大的分割数据集,在1100万张图像中,共超过10亿个掩码。该模型被设计和训练为可提示的的 (promptable),因此它可以将零样本(zero-shot) 迁移到新的图像分布和任务。我们评估了其在许多任务上的能力,发现其零样本迁移性能十分优秀,与之前的完全监督方法的结果相比,具有竞争力甚至优于这些结果。链接:https://segment-anythin原创 2024-03-05 11:57:40 · 2411 阅读 · 1 评论 -
【论文阅读】【yolo系列】YOLO-Pose的论文阅读
我们介绍YOLO-pose,一种无热图联合检测的新方法,基于流行的YOLO目标检测框架的图像二维多人姿态估计。原创 2024-02-20 14:26:12 · 5444 阅读 · 5 评论 -
【论文阅读】Generalized Focal Loss的解读。交叉熵、Focal Loss、Quality Focal Loss、Distribution Focal Loss
最后,我们将QFL和DFL的公式总结为一个统一的视角,称为 Generalized Focal Loss(GFL),作为FL的一个灵活的扩展,以促进未来进一步的推广和普遍的理解。专注于一组稀疏的困难样本的同时,对相应的类别进行连续的0∼1质量估计。举例子:5分类的任务,第1类别的分类标签onehot应为 [0,1,0,0,0],当前训练时检测框和对应标签框的iou为0.65,则此时分类的标签不再使用 [0,1,0,0,0],而是使用分类-iou联合表示:[0,0.65,0,0,0]。原创 2023-07-17 16:12:53 · 4312 阅读 · 3 评论 -
【论文阅读】【yolo系列】YOLACT Real-time Instance Segmentation
事实上,我们在COCO上的基本模型在测试集上的mask和box的mAP(29.8mask,32.3box)之间只有2.5 mAP的差异,这意味着即使使用完美的掩码,我们的基本模型也只能获得少数mAP点。此外,Mask R-CNN具有相同的mAP差异(35.7mask,38.2 box),这表明两种方法之间的差距在于我们的检测器的性能相对较差,而不是我们生成掩码的方法。因为预测系数是困难的。例如,在图7中,YOLACT 产生了一个干净的手臂边界的掩码,而FCIS和Mask R-CNN都有更多的噪声。原创 2023-06-28 16:25:10 · 2758 阅读 · 0 评论 -
【论文阅读--实时语义分割】PIDNet: A Real-time Semantic Segmentation Network Inspired from PID Controller
双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而,低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没,即本文中的超调 (overshoot),这限制了现有两个分支模型的准确性的提高。在本文中,我们在卷积神经网络(CNN)和比例积分微分(PID)控制器之间架起了桥梁,并揭示了双分支网络只是一个比例积分(PI)控制器,当然也会存在类似的超调问题。,它具有三个分支来分别解析细节、上下文和边界信息(语义的派生),并在最后阶段使用来指导细节和上下文分支的融合。原创 2023-03-06 20:38:58 · 4636 阅读 · 6 评论 -
【论文阅读】【yolo系列】YOLOV7的论文阅读
YOLOv7在速度和精度方面都超过了所有已知的目标检测器,在GPU V100上的速度为5 FPS到160 FPS的范围内,并且在所有已知的实时对象检测器中具有最高的,速度为30 FPS或更高。目标检测器(56 FPS V100,55.9%AP)在速度和精度上优于:–>基于transformer的检测器SWINL Cascade-Mask R-CNN(9.2 FPS A100,53.9%AP),分别为509%和2%,原创 2022-09-04 10:47:36 · 3446 阅读 · 4 评论 -
【论文阅读】OHEM:Training Region-based Object Detectors with Online Hard Example Mining
方法的由来 还是要看论文了解下的 https://arxiv.org/pdf/1604.03540.pdf1 数据不均衡图像分类和目标检测是计算机视觉的两个基本任务。目标检测器通常通过将目标检测转化为图像分类问题的简化来训练。这种减少带来了自然图像分类任务中没有的新挑战:训练集的特点是标注对象的数量与背景示例(不属于任何感兴趣的对象类别的图像区域)的数量之间存在很大的不平衡。在滑动窗口对象检测器的情况下,这种不平衡可能极端到每一个对象的100000个背景示例。最近的基于对象建议的探测器趋势[.原创 2022-04-07 13:32:38 · 2497 阅读 · 0 评论 -
【论文阅读--实时语义分割】RegSeg:Rethink Dilated Convolution for Real-time Semantic Segmentation
Abstract语义分割的最新进展通常采用ImageNet预训练主干网,在其后面有一个特殊的上下文模块,以快速增加视野。尽管取得了成功,但大部分计算所在的主干网没有足够大的视野来做出最佳决策。最近的一些进展通过快速降低主干中的分辨率来解决这个问题,同时还具有一个或多个具有更高分辨率的并行分支。我们采用了一种不同的方法,设计了一种受ResNeXt启发的块结构,该结构使用两个具有不同膨胀率的平行3×3卷积层来增加视野,同时保留局部细节。通过在主干中重复这种块结构,我们不需要在其后面附加任何特殊的上下文模块。此原创 2022-03-03 15:10:33 · 4971 阅读 · 5 评论 -
【论文阅读--实时语义分割】DDRNet:Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation
用于道路场景实时准确语义分割的深度双分辨率网络摘要语义分割是自动驾驶汽车理解周围场景的关键技术。现代模型的吸引力表现通常是以繁重的计算和漫长的推理时间为代价的,这对于自动驾驶来说是无法忍受的。使用轻量级架构(编码器-解码器或双通道)或对低分辨率图像进行推理,最近的方法实现了非常快速的场景解析,甚至在单个1080Ti GPU上以超过100fps的速度运行。然而,这些实时方法与基于dilation backbones的模型在性能上仍有很大差距。为了解决这个问题,我们提出了一系列专门为实时语义分割设计的高效主原创 2022-03-03 15:04:10 · 8406 阅读 · 0 评论 -
【论文阅读--实时语义分割】STDC:Rethinking BiSeNet For Real-time Semantic Segmentation
Abstract【BiSeNet的存在问题】BiSeNet[28,27]已被证明是一种流行的用于实时分割的双流网络。其添加额外路径来编码空间信息的原理非常耗时,并且由于任务特定设计的不足,从预训练任务(例如图像分类)借用的主干对于图像分割可能效率低下。【STDC网络的提出】设计了一个短期密集连接模块(STDC模块),通过消除结构冗余而高效,用于提取具有可扩展感受野和多尺度信息的深层特征。该模块以可承受的计算成本 提升了STDC网络的性能。具体地说,我们逐步降低特征映射的维数,并使用它们的聚合来表.原创 2021-12-23 18:23:03 · 4298 阅读 · 0 评论 -
【论文阅读--实时语义分割】BiSeNet V2: Bilateral Network with Guided Aggregation
摘要低层细节和高层语义对于语义分割任务都是必不可少的。然而,为了加快模型推理的速度,目前的方法几乎总是牺牲低级细节,这导致了相当大的精度下降。我们建议将这些空间细节和分类语义分开处理,以实现高精度和高效率的实时语义分割。为此,我们提出了一种在速度和准确性之间进行良好权衡的高效体系结构,称为双边分割网络(BiSeNet V2)。该体系结构包括:(1)一个细节分支,浅层 宽通道,用于捕获低级细节并生成高分辨率特征表示;(2)语义分支,层深 通道窄,获取高层语义语境。由于降低了信道容量和快速下采样策略,.原创 2021-12-23 17:36:58 · 4814 阅读 · 0 评论 -
【论文阅读--实时语义分割】BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
在当前的计算机视觉领域,语义分割是一项基本任务,比较常见的就是deeplab系列。deeplab 系列是 谷歌公司 完成的,包括了deeplabv1 (2015)、deeplabv2 (2017)、deeplabv3 (2017)、deeplabv3+ (2018),其中deeplabv3+效果最好。但效果好的同时,一般模型计算量较大,推理时间无法达到实时。这部分的内容记录在本人博客专栏中 https://blog.youkuaiyun.com/magic_ll/category_10568836.html原创 2021-12-20 17:10:03 · 2304 阅读 · 0 评论 -
【论文阅读】3D点云 -- PointConv: Deep Convolutional Networks on 3D Point Clouds
Abstract与在规则密集网格中表示的图像不同,三维点云是不规则和无序的,因此对其应用卷积可能很困难。在本文中,我们将动态滤波器扩展到一种新的卷积运算,名为PointConv。PointConv可以应用于点云,以构建深度卷积网络。我们将卷积核视为由权重函数和密度函数组成的三维点的局部坐标的非线性函数。对于给定的点,通过多层感知器网络和核密度估计的密度函数学习权函数。这项工作最重要的贡献是提出了一种新的用于有效计算权重函数的重新公式,它使我们能够极大地扩展网络并显著提高其性能。学习的卷积核可用于计算三维空原创 2021-11-10 10:23:03 · 1476 阅读 · 0 评论 -
【论文阅读】3D点云 -- BRNet:Back-tracing Representative Points for Voting-based3D Object Detection in PC
Abstract点云中的三维目标检测是一项具有挑战性的视觉任务,有利于理解三维视觉世界的各种应用。【研究方向】最近的许多研究集中在如何利用端到端可训练的Hough投票来生成对象提案。【存在问题】然而,当前的投票策略只能从潜在对象的表面获得部分投票,同时从杂乱的背景中获得严重的异常投票,这阻碍了输入点云信息的充分利用。【解决方法】受传统Hough投票方法中回溯策略的启发,本文介绍了一种新的三维目标检测方法,称为回溯代表点网络(BRNet),生成追溯投票中心的代表点,并重新访问这些生成点周围原创 2021-11-01 17:12:24 · 914 阅读 · 0 评论 -
【论文阅读】3D点云 -- PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
Abstract以前很少有研究点集深度学习的著作。PointNet[20]是这方面的先驱。然而,通过设计,点网无法捕获由度量空间点所产生的局部结构,从而限制了其识别细粒度模式的能力以及对复杂场景的通用性。在这项工作中,我们介绍了一种分层神经网络,它将点网递归地应用于输入点集的嵌套划分。通过利用度量空间距离,我们的网络能够在不断增加的上下文范围内学习局部特征。进一步观察到点集通常以不同的密度采样,这导致在均匀密度上训练的网络的性能大大降低,我们提出了新的集学习层来自适应地组合来自多个尺度的特征。实验表明,我原创 2021-10-29 16:07:46 · 940 阅读 · 0 评论 -
【论文阅读】3D点云 -- PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
Abstract点云是一种重要的几何数据结构。【存在问题】由于其不规则的格式,大多数研究人员将这些数据转换为规则的三维体素网格或图像集合。但是,这会使数据变得不必要的庞大,并导致问题。【本文设计】在本文中,我们设计了一种新型的直接消耗点云的神经网络,它很好地考虑了输入点的置换不变性。我们的网络名为PointNet,它为从对象分类、零件分割到场景语义解析的应用程序提供了统一的体系结构。虽然简单,但PointNet是高效的。从经验上看,它表现出强劲的表现,甚至比现有技术更好。理论上,我们提供分析原创 2021-10-28 20:00:54 · 2882 阅读 · 0 评论 -
【论文阅读】3D点云 -- VoteNet:Deep Hough Voting for 3D Object Detection in Point Clouds
Abstract当前的三维目标检测方法受到二维探测器的严重影响。为了利用2D探测器中的体系结构,通常将3D点云转换为规则网格(即,转换为体素网格或鸟瞰图图像),或者依靠2D图像中的检测来提出3D框。很少有工作试图直接检测点云中的对象。在这项工作中,我们回到第一原则,为点云数据构建一个尽可能通用的3D检测管道。然而,由于数据的稀疏性(来自3D空间中2D流形的样本),我们在从场景点直接预测边界框参数时面临一个重大挑战:3D对象质心可能远离任何曲面点,因此很难在一步中精确回归。 为了应对这一挑战,我原创 2021-11-01 11:01:03 · 2017 阅读 · 0 评论 -
论文翻译 || 模型剪枝(2)——ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression
https://arxiv.org/abs/1707.06342Abstract我们提出了一个高效统一的框架,即ThiNet,在训练和推理阶段同时加速和压缩CNN模型。我们关注的是过滤器级别的剪枝,也就是说,如果整个过滤器不那么重要,那么它将被丢弃。我们的方法不改变原有的网络结构,因此它可以被任何现成的深度学习库完美地支持。我们将滤波器剪枝作为一个优化问题建立起来,并揭示我们需要根据从下一层计算的统计信息来修剪过滤器,而不是当前的层,这ThiNet与现有的方法不同。实验结果表明了该策略的有效性,提高了原创 2021-04-14 16:20:48 · 1104 阅读 · 0 评论 -
论文翻译 || 模型剪枝(1)—— PRUNING FILTERS FOR EFFICIENT CONVNETS
ABSTRACT在各种应用中的成功伴随着计算和参数存储成本的显著增加。最近为减少这些开销所做的努力包括在不损害原有精度的情况下修剪和压缩各层的权重。然而,基于大小的权值剪枝从完全连通的层中减少了大量的参数,由于剪枝后的网络具有不规则的稀疏性,可能不能充分降低卷积层的计算成本。我们提出了一种cnn的加速方法,我们从被识别为对输出精度影响很小的cnn中删除滤波器。通过去除网络中所有的过滤器及其连接的特征映射,大大降低了计算成本。与修剪权值相反,这种方法不会导致稀疏连接模式。因此,它不需要稀疏卷积库的支持,原创 2021-04-01 09:10:05 · 1610 阅读 · 1 评论 -
论文阅读 || 语义分割系列 —— deeplabv3+ 详解
论文地址:https://arxiv.org/pdf/1802.02611.pdf1 deeplabv3+ 概述deeplabv3的缺点:输出图放大效果不好,细节信息不够deeplabv3+的改进:【encoder-decoder】+【Xception】+【depthwise deparable conv】encoder-decoder结构:高层特征提供语义,decoder逐步回复边界信息encoder结构:采用deeplabv3,使用ASPP模块获取多尺度的上下文信息(可直接上采样得到.原创 2020-12-02 09:18:27 · 19304 阅读 · 2 评论 -
论文阅读 || 语义分割系列 —— deeplabv3详解
论文链接:https://arxiv.org/abs/1706.055871 deeplabv3的主要贡献我们知道:连续的池化和下采样,使特征分辨率下降,不利于定位全局特征或上下文之间的互相作用有利于语义分割的效果 deeplabv3的主要贡献提出了更通用的框架,适用于更多网络改进了ASPP:由不同采样率的空洞卷、BN层组成,尝试以级联并行的方式设计模块大采样的空洞卷积:使用大采样率的3x3 的空洞卷积,此时由于图像边界响应无法捕捉远距离信号,就会退化成1x1的卷积2 .原创 2020-11-15 14:00:37 · 11232 阅读 · 0 评论 -
论文阅读 || 语义分割系列 —— deeplabv2 详解
论文地址:https://arxiv.org/pdf/1606.00915.pdf1 deeplabv2的概述 主要贡献1 强调使用空洞卷积。作为密集预测任务的强大工具,空洞卷积能够明确的控制 DCNN 内计算特征响应的分辨率。 既可以有效的扩大感受野,在不增加参数量和计算量的同时获取更多的上下文2 提出了 空洞空间卷积池化金字塔(atrous spatial pyramid pooling ( ASPP)),以多尺度的信息得到更强健的分割结果。ASPP并行的采用了多个采样率的空洞卷积层来预测,原创 2020-11-13 16:11:24 · 5028 阅读 · 0 评论 -
论文阅读 || 语义分割系列 —— deeplabv1 详解
论文地址:https://arxiv.org/pdf/1412.7062.pdf1 deeplabv1 的简介使用 DCNN 解决图像分割存在的问题1 下采样:增大感受野。但会导致分辨率的下降,丢失了细节信息2 CNN的空间不变性:根本是源于重复的池化和下采样。3 多个尺度上存在对象(在deeplabv2之后得以解决) deeplabv1的解决方法:1 使用空洞卷积解决下采样的问题:将最后两个池化的 stride=1,不改变特征图的大小(空洞卷积扩大了感受野)2 使用Dense.原创 2020-11-11 14:55:33 · 4271 阅读 · 1 评论 -
论文翻译 || openpose -- Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
摘要我们提出了一个方法,能够在一张图中高效的识别出多人的2D姿态。该方法运用了非参数表示(non-parametric representation),我们称之为部分亲和域(PAFs:Part Affinitu Fields),用它来学习怎样将身体部分和个体联系起来。这个结构编码了全局信息,并允许一个贪婪的从底向上的解析步骤,这在实现实时性能时,有着高度的精准且无须考虑图像中人的数量。这个结构被设计成相同顺序预测过程的两个分支,来联合学习部分位置(关节点)以及它们之间的关联(相邻的关节点的连接关系)。我们原创 2020-09-03 11:00:07 · 3949 阅读 · 0 评论 -
论文阅读 || 目标检测系列——yolov4 详细解读
bag of freebies:字面上的意思就是免费赠品。在目标检测中是指:用一些比较有用的训练技巧来训练模型,从而使得模型取得更好的准确率。但是不增加模型的复杂度,也就不增加推理(inference)的计算量(cost)。Data augmentation。摘要目前有很多算法可以提高CNN的准确性。在大量数据集上结合这些算法进行实际测试、在实验结果上理论的验证是十分必要的。一些算法操作单一针对特定的模型、或者特定的问题、又或者小规模的数据集 有效;有些算法适用于大多数模型、任务、数..原创 2020-11-09 20:32:11 · 2996 阅读 · 0 评论 -
论文阅读 || 目标检测系列——一文读懂YOLOv3
写在前面:yolo3的论文介绍的相对简单,主要还是需要阅读实现代码。自己阅读版本链接:https://github.com/YunYang1994/tensorflow-yolov3。 并重新训练了自己的数据,来更好的理解yolo3。yolo3的解读,https://blog.youkuaiyun.com/leviopku/article/details/82660381,画出了很清晰的网络结构图。但每个人都有自己的“记忆宫殿”,我参考了他画的结构,画了个更适合自己理解和记忆的图。之前看 [神探夏洛克] ,“.原创 2020-06-29 17:17:21 · 1203 阅读 · 1 评论 -
论文阅读 || 目标检测系列——yolov2详解
YOLOV2相较YOLOV1,是在其基础上做了优化。主要在预测更准确(Better)、速度更快(Faster)、识别对象更多(stronger)。其中识别更多对象就是扩展到能够检测9000种不同对象,称之为YOLO9000。1 预测更准确1.1 batch normalization (批量归一化)mAP提升2.4操作:替代了YOLOV1的dropoutbatch norm有助于解决方向传播过程中的梯度消失和梯度爆炸的问题,降低一些超参数(eg.学习率、网络参数的数量、激活函数的选择)的敏原创 2020-06-14 09:59:11 · 1438 阅读 · 0 评论 -
论文阅读 || 目标检测系列——yolov1详解
yolo的实现方案:1.网络结构去掉label相关的内容,YOLO的结构很简单,卷积+池化+全连接层。网络结构借鉴了GoogLeNet。24个卷积层,2个全连接层。(用 1x1 reduction layers + 3x3 convolutional layers 取代了GoogLeNet的inception modules)2.输入和输出的映射关系将图像分成SxS个网格(grid ...原创 2020-06-14 09:55:04 · 836 阅读 · 0 评论 -
论文阅读 || 目标检测系列—— Mask R-CNN详解
论文链接:https://arxiv.org/abs/1703.06870mask RCNN是He Kaiming大神2017的力作,其在进行目标检测的同时进行实例分割,取得了出色的效果,取得了COCO 2016比赛的冠军图像分割的集中方式:语义分割、实例分割、全景分割。如下图所示Mask RCNN沿用了Faster RCNN的思想。Mask RCNN = (ResNet-FPN)...原创 2020-06-14 10:04:57 · 6702 阅读 · 0 评论 -
论文阅读 || 目标检测系列 —— Faster RCNN详解
1 Faster RCNN操作流程1. 卷积层(conv layer):【输入为整张图片,输出为提取的feature map】用于提取图片的特征,比如VGG16。 2. RPN模块(Region Proposal Network):【输入为feature map,输出为候选区域】。这里替代之前的search selective。 首先生成很多Anchor box,对其进行裁...原创 2020-06-14 10:02:40 · 1728 阅读 · 0 评论 -
论文阅读 || 目标检测系列 —— Fast R-CNN(超详细)
论文地址:Fast R-CNN目录1. 已有CNN目标检测算法的对比1.1 RCNN的缺点1.2 SPPNet的缺点1.3 Fast RCNN的贡献2. Fast RCNN的介绍2.1 Fast RCNN的训练流程2.2 fune turing的介绍2.2.2 RoI pooling的介绍2.2.3 损失函数2.2.4 小批量采样2.2.5...原创 2020-06-14 10:02:12 · 2466 阅读 · 0 评论 -
论文阅读 || 目标检测系列 —— SPPNet详解
1 SPPNet网络介绍1.1 SPPNet网络处理流程1. 候选框提取:使用算法selective search获取输入图片的候选框,提取约2000个候选区域 2. CNN+SPP+FC(与RCNN不同之处): 把整张图片输入到CNN中,一次性提取特征得到feature maps 并且在feature map中找到各个候选框的映射区域 对候选区域对应的feature map...原创 2020-06-14 10:01:28 · 3856 阅读 · 0 评论 -
论文阅读 || 目标检测系列 —— RCNN详解
目录1. 相关概念2 R-CNN的结构2.1 候选框的提取2.2 缩放候选区域2.3 通过CNN提取特征向量2.4 目标种类分类器2.5 修正bbox1) 候选框P 到预测框G'的平移缩放2) 回归器的搭建3可视化、框架精简和错误检测3.1 可视化3.2 消融研究(Ablation studies)3.3 测量误差分析1. 相关概念 ...原创 2019-11-15 17:45:17 · 1363 阅读 · 0 评论 -
论文阅读 || 深度学习之空洞卷积
论文地址:Multi-scale context aggregation with dilated convolutions空洞卷积(Dilated/Atrous Convolution),就是在标准的卷积里面注入空洞,以此来增加感受野的大小。1 原理的介绍1.1 空洞卷积的引入Deep CNN对于某些任务有致命的缺陷。较为明显的为pooling layer (优点:减小特征图尺寸...原创 2019-10-31 09:17:25 · 8514 阅读 · 0 评论 -
论文阅读 || 图像分类系列 —— DenseNet(很详细)
目录1 网络结构加深的演变2 Dense模块的介绍3 DenseNet实现过程3.1 DenseNet优点3.2 网络结构4 实验4.1 数据处理4.2 模型训练超参数4.3 在CIFAR和SVHN上的实验结果4.4 ImageNet分类结果5. 讨论论文地址:Densely Connected Convolutional Networks1 网...原创 2019-11-07 14:31:15 · 7684 阅读 · 0 评论 -
论文阅读 || 图像分类系列 —— inceptionv1、v2、v3、v4
目录一 Inception v11 网络性能优化2 inception结构3 inception 模块参数4 googLenet 优点和网络特点5 googLenet 网络结构6 GoogLeNet数据预处理二 Inception V2 v31 模型设计规则2 优化方法3 网络结构三 Inception v4、Inception-Resnet-v1、...原创 2019-10-24 16:08:19 · 2102 阅读 · 1 评论 -
论文阅读 || 图像分类系列 —— VGG详解
目录1 简介2 网络结构网络结构的特点使用多个3*3叠加的原因使用1*1的卷积核3 VGGNet网络的参数参数和计算量的对比4 VGGNet的训练超参数的设置图片的处理5 VGGNet的测试将全连接换成全卷积多重裁剪评估方式5 VGGNet实验结果5.1 单尺度评估5.2 多尺度评估5.3 多重裁剪评估5.4 多个网络结合...原创 2019-08-02 14:22:40 · 9174 阅读 · 0 评论