
论文总结
文章平均质量分 94
*pprp*
GiantPandaCV公众号作者,研究方向automl,nas
展开
-
Compact-Transformer:缓解数据不足带来的问题
【GiantPandaCV导语】本文致力于解决ViT在小型数据集上性能不够好的问题,这个问题非常实际,现实情况下如果确实没有大量数据集,同时也没有合适的预训练模型需要从头训练的时候,ViT架构性能是不如CNN架构的。这篇文章实际上并没有引入大量的卷积操作,通过修改patch size,以及使用SeqPool的方法就可以取得不错的成绩。引言ViT不适用于小数据集,但是由于很多领域中数据量大小是非常有限的,为了打破ViT数据匮乏下性能不好,只能应用于大数据集的问题。本文提出使用正确的尺寸以及tokeniz原创 2022-03-21 20:49:32 · 4023 阅读 · 0 评论 -
当可变形注意力机制引入Vision Transformer
【GiantPandaCV导语】通过在Transformer基础上引入Deformable CNN中的可变性能力,在降低模型参数量的同时提升获取大感受野的能力,文内附代码解读。引言Transformer由于其更大的感受野能够让其拥有更强的模型表征能力,性能上超越了很多CNN的模型。然而单纯增大感受野也会带来其他问题,比如说ViT中大量使用密集的注意力,会导致需要额外的内存和计算代价,特征很容易被无关的部分所影响。而PVT或者Swin Transformer中使用的sparse attention是数原创 2022-01-22 21:41:57 · 1965 阅读 · 0 评论 -
CoAtNet: 90.88% Paperwithcode榜单第一,层层深入考虑模型设计
【GiantPandaCV导语】CoAt=Convolution + Attention,paperwithcode榜单第一名,通过结合卷积与Transformer实现性能上的突破,方法部分设计非常规整,层层深入考虑模型的架构设计。引言Transformer模型的容量大,由于缺乏正确的归纳偏置,泛化能力要比卷积网络差。提出了CoAtNets模型族:深度可分离卷积与self-attention能够通过简单的相对注意力来统一化。叠加卷积层和注意层在提高泛化能力和效率方面具有惊人的效果方法这部原创 2022-01-08 18:26:07 · 2821 阅读 · 0 评论 -
CeiT:训练更快的多层特征抽取ViT
【GiantPandaCV导语】来自商汤和南洋理工的工作,也是使用卷积来增强模型提出low-level特征的能力,增强模型获取局部性的能力,核心贡献是LCA模块,可以用于捕获多层特征表示。引言针对先前Transformer架构需要大量额外数据或者额外的监督(Deit),才能获得与卷积神经网络结构相当的性能,为了克服这种缺陷,提出结合CNN来弥补Transformer的缺陷,提出了CeiT:(1)设计Image-to-Tokens模块来从low-level特征中得到embedding。(2)将Tran原创 2022-01-08 16:20:18 · 2134 阅读 · 0 评论 -
CvT: 如何将卷积的优势融入Transformer
【GiantPandaCV导语】与之前BoTNet不同,CvT虽然题目中有卷积的字样,但是实际总体来说依然是以Transformer Block为主的,在Token的处理方面引入了卷积,从而为模型带来的局部性。最终CvT最高拿下了87.7%的Top1准确率。引言CvT架构的Motivation也是将局部性引入Vision Transformer架构中,期望通过引入局部性得到更高的性能和效率权衡。因此我们主要关注CvT是如何引入局部性的。具体来说提出了两点改进:Convolutional token原创 2022-01-01 16:09:29 · 1934 阅读 · 3 评论 -
BoTNet:Bottleneck Transformers for Visual Recognition
【GiantPandaCV导语】基于Transformer的骨干网络,同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了MHSA替换3x3卷积。属于早期的结合CNN+Transformer的工作。简单来讲Non-Local+Self Attention+BottleNeck = BoTNet引言本文的发展脉络如下图所示:实际上沿着Transformer Block改进的方向进行的,与CNN架构也是兼容的。具体结构如下图所示:两者都遵循了Bott原创 2021-12-27 14:44:35 · 772 阅读 · 4 评论 -
知识蒸馏综述:代码整理
【GiantPandaCV导语】收集自RepDistiller中的蒸馏方法,尽可能简单解释蒸馏用到的策略,并提供了实现源码。1. KD: Knowledge Distillation全称:Distilling the Knowledge in a Neural Network链接:https://arxiv.org/pdf/1503.02531.pdf发表:NIPS14最经典的,也是明确提出知识蒸馏概念的工作,通过使用带温度的softmax函数来软化教师网络的逻辑层输出作为学生网络的监督信息,q原创 2021-12-13 12:25:55 · 3240 阅读 · 1 评论 -
知识蒸馏综述:网络结构搜索应用
【GiantPandaCV导语】知识蒸馏将教师网络中的知识迁移到学生网络,而NAS中天然的存在大量的网络,使用KD有助于提升超网整体性能。两者结合出现了许多工作,本文收集了部分代表性工作,并进行总结。1. 引言知识蒸馏可以看做教师网络通过提供soft label的方式将知识传递到学生网络中,可以被视为一种更高级的label smooth方法。soft label与hard label相比具有以下优点:模型泛化能力更强降低过拟合的风险一定程度上降低了学生网络学习的难度。对噪声更加鲁棒。具有更多原创 2021-12-12 19:32:19 · 3033 阅读 · 0 评论 -
知识蒸馏综述: 知识的类型
【GiantPandCV引言】简单总结一篇综述《Knowledge Distillation A Survey》中的内容,提取关键部分以及感兴趣部分进行汇总。这篇是知识蒸馏综述的第一篇,主要内容为知识蒸馏中知识的分类,包括基于响应的知识、基于特征的知识和基于关系的知识。知识蒸馏简介定义:知识蒸馏代表将知识从大模型向小模型传输的过程。作用:可以用于模型压缩和训练加速 手段。综述梳理思路:知识蒸馏的种类训练机制教师-学生 架构蒸馏算法性能比较实际应用典型的知识蒸原创 2021-11-28 09:43:49 · 1027 阅读 · 0 评论 -
CenterNet的骨干网络之DLASeg
DLA全称是Deep Layer Aggregation, 于2018年发表于CVPR。被CenterNet, FairMOT等框架所采用,其效果很不错,准确率和模型复杂度平衡的也比较好。CenterNet中使用的DLASeg是在DLA-34的基础上添加了Deformable Convolution后的分割网络。1. 简介Aggretation聚合是目前设计网络结构的常用的一种技术。如何将不同深度,将不同stage、block之间的信息进行融合是本文探索的目标。目前常见的聚合方式有skip conn原创 2020-08-06 10:16:15 · 3755 阅读 · 10 评论 -
Pelee:移动端实时检测Backbone
简介在ImageNet数据集上,PeleeNet只有MobileNet模型的66%,并且比MobileNet精度更高。PeleeNet作为backbone实现SSD能够在VOC2007数据集上达到76.4%的mAP。文章总体上参考DenseNet的设计思路,提出了三个核心模块进行改进,有一定参考价值。核心PeleeNet实际上是DenseNet的变体,使用的依然是DenseNet的连接方法,核心的设计原则也和DenseNet相仿(特征重用)。核心模块:Two-Way Dense Layer原创 2020-05-17 09:23:43 · 563 阅读 · 0 评论 -
一张图梳理YOLOv4论文
AlexeyAB大神继承了YOLOv3, 在其基础上进行持续开发,将其命名为YOLOv4。并且得到YOLOv3作者Joseph Redmon的承认,下面是Darknet原作者的在readme中更新的声明。来看看YOLOv4和一些SOTA模型的对比,YOLOv4要比YOLOv3提高了近10个点。1. 思维导图YOLOv4总体上可以划分为两部分,一部分是讲Bag of freebies和Ba...原创 2020-04-25 07:55:51 · 2997 阅读 · 0 评论 -
HRNet:打通多个视觉任务的全能骨干网络结构(分类,分割,检测,姿态,风格等)
HRNet是微软亚洲研究院的王井东老师领导的团队完成的,打通图像分类、图像分割、目标检测、人脸对齐、姿态识别、风格迁移、Image Inpainting、超分、optical flow、Depth estimation、边缘检测等网络结构。王老师在ValseWebinar《物体和关键点检测》中亲自讲解了HRNet,讲解地非常透彻。以下文章主要参考了王老师在演讲中的解读,配合论文+代码部分,来为各...原创 2020-04-22 11:11:06 · 8107 阅读 · 3 评论 -
Deep SORT多目标跟踪算法代码解析
Deep SORT是多目标跟踪(Multi-Object Tracking)中常用到的一种算法,是一个Detection Based Tracking的方法。这个算法工业界关注度非常高,在知乎上有很多文章都是使用了Deep SORT进行工程部署。笔者将参考前辈的博客,结合自己的实践(理论&代码)对Deep SORT算法进行代码层面的解析。在之前笔者写的一篇Deep SORT论文阅读总结中...原创 2020-04-20 11:51:33 · 5487 阅读 · 11 评论 -
Deep SORT论文阅读笔记
本文主要讲解Deep SORT论文核心内容,包括状态估计、匹配方法、级联匹配、表观模型等核心内容。1. 简介Simple Online and Realtime Tracking(SORT)是一个非常简单、有效、实用的多目标跟踪算法。在SORT中,仅仅通过IOU来进行匹配虽然速度非常快,但是ID switch依然非常大。本文提出了Deep SORT算法,相比SORT,通过集成表观信息来提升S...原创 2020-04-18 18:32:48 · 1221 阅读 · 0 评论 -
IBN-Net: 提升模型的域自适应性
本文解读内容是IBN-Net, 笔者最初是在很多行人重识别的库中频繁遇到比如ResNet-ibn这样的模型,所以产生了阅读并研究这篇文章的兴趣,文章全称是: 《Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net》。IBN-Net和SENet非常相似:可以方便地集成到现有网络模型中。在多个视觉任务中...原创 2020-04-08 08:59:06 · 2743 阅读 · 0 评论 -
增强CNN学习能力的Backbone:CSPNet
CSPNet全称是Cross Stage Partial Network,主要从一个比较特殊的角度切入,能够在降低20%计算量的情况下保持甚至提高CNN的能力。CSPNet开源了一部分cfg文件,其中一部分cfg可以直接使用AlexeyAB版Darknet还有ultralytics的yolov3运行。1. 简介Cross Stage Partial Network(CSPNet)就是从网络...原创 2020-03-25 14:37:50 · 7352 阅读 · 3 评论 -
【CNN调参】目标检测算法优化技巧
上次bbuf分享了亚马逊团队的用于分类模型的bag of tricks, 详见:链接, 本文继续梳理一下目标检测trick, 解读这篇19年同样由亚马逊团队发表的《Bag of Freebies for Training Object Detection Neural Networks》。先来看看效果,在使用了trick后,Faster R-CNN能提高1-2个百分点,而YOLOv3则提高了5个百...原创 2020-03-22 09:19:00 · 1660 阅读 · 0 评论 -
【综述】CNN中的池化操作-你见过的没见过的池化这里都有
池化操作(Pooling)是CNN中非常常见的一种操作,Pooling层是模仿人的视觉系统对数据进行降维,池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling),在构建卷积神经网络时,往往会用在卷积层之后,通过池化来降低卷积层输出的特征维度,有效减少网络参数的同时还可以防止过拟合现象。主要功能有以下几点:抑制噪声,降低信息冗余提升模型的尺度不变性、旋转不变形...原创 2020-03-10 16:19:00 · 3157 阅读 · 3 评论 -
两阶段实时检测网络ThunderNet
ThunderNet是旷视和国防科技大学合作提出的目标检测模型,目标是在计算力受限的平台进行实时目标检测。需要关注的地方主要就是提出的两个特征增强模块CEM和SAM,其设计理念和应用的方法都非常值得借鉴。1. 介绍在移动端的实时目标检测是一个极为重要并且有挑战性的视觉问题。很多基于CNN的检测器都有巨大的计算量,所以在计算受限的场景下难以进行实时推理。论文提出了一个轻量级的两阶段的检测方法...原创 2020-03-07 08:57:45 · 1188 阅读 · 0 评论 -
Feature Pyramid Network解读和理解
FPN全称是Feature Pyramid Network, 也就是特征金字塔网络,主要是针对图像中目标的多尺度的这个特点提出的,多尺度在目标检测中非常常见,而且对应不同的问题应该设计不同的FPN。FPN是Facebook于2017年提出的用于目标检测的模块化结构,但FPN在很多计算机视觉任务中都有使用,比如姿态估计、语义分割等领域。在深度学习兴起以前,很多传统方法都会使用到图像金字塔。图...原创 2020-03-01 21:55:49 · 1592 阅读 · 0 评论 -
MOT领域经典论文《Simple Online and Realtime Tracking》阅读笔记
前言:目前打算将多目标检测MOT作为自己的毕设题目,相当于重新进入一个领域,在这个领域中听到最多的就是SORT论文,也就是今天要阅读的论文。自己阅读论文的能力有点差,所以趁还没有进入研究生阶段,尽早提高自己的论文阅读理解能力,让自己在未来的路上走的更远一些。光有鸡汤还不够,需要有理论进行支撑,我打算采用https://zhuanlan.zhihu.com/p/78328408中提到的方法进行论...原创 2019-12-17 20:11:13 · 878 阅读 · 0 评论