
论文笔记
论文笔记
Richard_Che
这个作者很懒,什么都没留下…
展开
-
论文笔记:Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation
核心思想:一种高效的bottom-up全景分割方法,比two-stage更快一个统一的backbone,分出两个结构非常相似的头部,实现两种任务:一个是one-stage的实例分割,一个是语义分割,最终通过后处理将二者集成起来one-stage实例分割实际上是class-agnostic(类别无关)的offset回归 + 实例中心heatmap这个框架可以用任意的语义分割的代替,具有很强的灵活性Intro全景分割的目的:对每个像素点给予不同的label + instance ID(如果对于原创 2020-07-11 23:51:16 · 2725 阅读 · 2 评论 -
论文笔记:ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
中心思想指出当前主流的对轻量级网络的衡量方式不够全面(仅用FLOPs来衡量一个模型的轻量级程度)实际在端上执行一张图像的预测,还需要考虑其他因素,如内存访问,平台架构等等因此从实际角度出发,给出了一些轻量级网络的设计指导,并最终根据这些指导,引出了新的网络结构——ShuffleNet v2用FLOPs衡量模型的主要问题FLOPs本身和实际应用中关心的效率指标未必成正相关,如在应用中一般用的是speed, latency在FLOPs相同的情况下,不同网络的真正速度也有差别,同一个网络,在不原创 2020-06-11 23:12:47 · 438 阅读 · 0 评论 -
论文笔记:ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
论文链接:https://arxiv.org/abs/1707.01083v2中心思想看到了在形如Xception & ResNext等网络存在大量1x1的卷积,虽然降低了参数量,但使得Latency增加,不够高效使用了point-wise group conv + channel shuffle的操作来减少1x1卷积的计算负担channel shuffle是本文的最大特点,加强了特征图每个channel之间的信息流通设计思路对于Xception, ResNext这些网络,利用了D原创 2020-06-05 21:28:06 · 296 阅读 · 0 评论 -
论文笔记:YOLOv4: Optimal Speed and Accuracy of Object Detection
中心思想:在提出YOLOv4之前,作者先对现有的主流改进思路,进行了分类&综述基于上述的改进思路进行尝试,整合,最终提出了YOLOv4。主要的贡献在于:能够实现低成本的训练(只用1张卡)验证了训练&预测过程中的一些trickBag of FreebiesBag of Freebies指的是通过更好的训练方式来得到性能的提升,而这种训练方式不会对模型的预测(inference)带来比较大的负担最常见的Freebie是数据增广,主要目的是提升训练数据的差异性,常用的数据原创 2020-06-04 19:26:08 · 479 阅读 · 0 评论 -
论文笔记:VarGNet: Variable Group Convolutional Neural Network for Efficient Embedded Computing
中心思想:固定group convolution中每个group的channel个数,而不是遵循现有的做法:固定group的个数各层之间的计算策略由于group channel个数的固定,使得模型在硬件端更容易优化设计满足嵌入式端上网络的几种思路:两个方向设计出算力需求少的网络(减少乘加次数,MAdds),如shufflenet v1/v2, mobilenet v1/v2从FPGA(硬件)、编译器方面入手,优化卷积等操作的计算方式但是上述的两个发展方向,往往是背道而驰的。如果单纯降低MA原创 2020-06-02 19:05:59 · 1672 阅读 · 0 评论 -
论文笔记:YOLOv3: An Incremental Improvement
Yolov3论文链接:https://pjreddie.com/media/files/papers/YOLOv3.pdf中心思想在原有的YOLO基础上加上一系列的细节改进从而使性能得到提升相关改进:bbox的编码(转换):和YOLOv2采用相同的label坐标encode的方式如下,其中(bx,by,bw,bh)(b_x, b_y, b_w, b_h)(bx,by,bw,bh)分别是bbox的中心点以及宽高。bx=σ(tx)+cxb_x = \sigma(t_x) + c_xb原创 2020-05-30 18:08:24 · 324 阅读 · 0 评论 -
论文笔记:EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
论文:https://arxiv.org/abs/1905.11946中心思想提出了一种同时对深度,宽度,尺度(这里指的是输入的分辨率)的网络扩展(scale)方式以往的工作仅限于在width /height/resolution(input resolution)三者之一进行扩展而同时调节这几个变量又费时费力本文发现3个变量只需要同时乘一个系数就能得到比较好的效果,称为compound scale method,复合网络扩展使用了网络结构搜索的方式,得到EfficientNet作为ba原创 2020-05-30 12:17:16 · 451 阅读 · 0 评论 -
论文笔记:SSD: Single Shot MultiBox Detector
中心思想:直接通过一个神经网络实现目标检测。关键:不对特征进行重采样在不同的尺度&比例的default box下(其实就是Anchor),将BBox的输出空间离散化成每个Feature Map中的点使用了Multi-scale输出,预测时输出的是分数 + 偏移量(adjustment)减少了Two-stage中的Proposal -> ROIPooling -> RCNN这种结构(SSD并非第一个这么做的,前面有YOLO,但是做了一系列的改进)使得模型易于训练,并且能够达到T原创 2020-05-30 12:13:53 · 1199 阅读 · 0 评论 -
论文笔记:Focal Loss for Dense Object
中心思想探究为什么one-stage detection(dense approach)会比two-stage(sparse approach)性能低。查出:根本原因是分类分支中前景&背景的比例严重失衡为了解决这个问题,从Loss入手提出了focal loss,用于调整Loss低(分得比较好的)样本的权重,从而防止Loss高的少量样本被大量Loss低的样本淹没为了验证focal loss的正确性提出了retinanetClass Imbalance Problem:对于Two-sta原创 2020-05-28 20:51:26 · 397 阅读 · 0 评论 -
论文笔记:Rethinking ImageNet Pretraining——是否需要Pretrain
论文:https://arxiv.org/pdf/1811.08883.pdf本文主要:说明能在检测或者实例分割上通过From Scratch的方式得到比较好的效果甚至能大部分复用finetune ImageNet预训练网络时候的超参,仅仅是迭代次数提升,都可以得到接近ft的效果pretrain仅能够加速训练的收敛,不会对目标任务的指标提升起作用这样的结论让人重新审视目前流行的 Pretrain-fintune流程Intro传统思路认为Pretrain学习了图像的一些通用特征,在此基础上原创 2020-05-17 21:58:19 · 672 阅读 · 0 评论 -
论文笔记 CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection
论文:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2003.09119.pdf代码:https://github.com/KiveeDong/CentripetalNet相关介绍:https://zhuanlan.zhihu.com/p/137539121摘要: 本文提出了CentripetalNet ,主要解决的是Anchor Free,Corner Based检测中的Corner匹配问题,主要的贡献包括: 通过..原创 2020-05-16 10:31:54 · 678 阅读 · 0 评论 -
论文笔记:Object as Points
论文:https://arxiv.org/pdf/1904.07850.pdf代码:https://github.com/xingyizhou/CenterNet主要贡献:摒弃了One stage 或者 two-stage的基于Anchor对BBox进行回归+分类的操作将BBox为中心点+宽高这样的方式,从而直接将BBox的回归转换成角点的检测同时这个BBox可以包含(编码)更多的信息,比如中心点 + 宽高 + 朝向 + 深度等以点来代替Anchor回归+分类的机制,更高效One-sta原创 2020-05-16 00:27:04 · 393 阅读 · 0 评论 -
论文笔记:Training Region-based Object Detectors with Online Hard Example Mining
论文:https://arxiv.org/pdf/1604.03540.pdf简单来说,本文就是在Fast RCNN的基础上加入了在线难样本挖掘(Online Hard Example Mining, OHEM)。因此笔记也相应包含2部分:Fast RCNN的简单回顾&OHEM的介绍Fast RCNN的回顾Fast RCNN主要包含两个步骤:1. Convolution Network 在全图中通过CNN提取全局特征;2. ROI Network,通过ROI Pooling的方式提取出RO原创 2020-05-13 22:46:57 · 339 阅读 · 0 评论 -
论文笔记:AugFPN: Improving Multi-scale Feature Learning for Object Detection
代码:https://github.com/Gus-Guo/AugFPN论文:https://arxiv.org/abs/1912.05384摘要现有的SOTA检测器都使用了构建特征金字塔(不同尺度的特征组合),来提升对不同尺度(大小)的目标的检测鲁棒性。而FPN是其中的代表性工作本文对FPN进行了分析,找到了其中的一些设计上的缺陷针对缺陷提出了3个改进点,也正是AugFPN的3个组成部分:Consistent Supervision:用于降低不同scale之间的语义GapResidu.原创 2020-05-13 22:43:38 · 3889 阅读 · 1 评论 -
论文笔记:Quantizing deep convolutional networks for efficient inference: A whitepaper
地址:https://arxiv.org/abs/1806.08342这篇白皮书统一介绍了当前将网络进行定点化的方法。下面将看到的重点记录下来。为了降低深度神经网络的计算量以及带宽(内存占用量),一种简单可行的方式就是将浮点网络(网络权重都是float类型数值)转换成定点网络(网络权重都是或者部分是int8类型)具体来说,这么做的优势在于:不用改变网络结构,不用重新训练单个int8定点数的内存占用就已经是float32这种浮点数的1/4。显然这样的定点化转换能够降低模型的占用降低运行时所需的带宽原创 2020-05-13 22:13:38 · 573 阅读 · 0 评论