论文笔记
论文笔记
Richard_Che
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文笔记:Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation
核心思想: 一种高效的bottom-up全景分割方法,比two-stage更快 一个统一的backbone,分出两个结构非常相似的头部,实现两种任务:一个是one-stage的实例分割,一个是语义分割,最终通过后处理将二者集成起来 one-stage实例分割实际上是class-agnostic(类别无关)的offset回归 + 实例中心heatmap 这个框架可以用任意的语义分割的代替,具有很强的灵活性 Intro 全景分割的目的:对每个像素点给予不同的label + instance ID(如果对于原创 2020-07-11 23:51:16 · 2833 阅读 · 2 评论 -
论文笔记:ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
中心思想 指出当前主流的对轻量级网络的衡量方式不够全面(仅用FLOPs来衡量一个模型的轻量级程度) 实际在端上执行一张图像的预测,还需要考虑其他因素,如内存访问,平台架构等等 因此从实际角度出发,给出了一些轻量级网络的设计指导,并最终根据这些指导,引出了新的网络结构——ShuffleNet v2 用FLOPs衡量模型的主要问题 FLOPs本身和实际应用中关心的效率指标未必成正相关,如在应用中一般用的是speed, latency 在FLOPs相同的情况下,不同网络的真正速度也有差别, 同一个网络,在不原创 2020-06-11 23:12:47 · 497 阅读 · 0 评论 -
论文笔记:ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
论文链接:https://arxiv.org/abs/1707.01083v2 中心思想 看到了在形如Xception & ResNext等网络存在大量1x1的卷积,虽然降低了参数量,但使得Latency增加,不够高效 使用了point-wise group conv + channel shuffle的操作来减少1x1卷积的计算负担 channel shuffle是本文的最大特点,加强了特征图每个channel之间的信息流通 设计思路 对于Xception, ResNext这些网络,利用了D原创 2020-06-05 21:28:06 · 335 阅读 · 0 评论 -
论文笔记:YOLOv4: Optimal Speed and Accuracy of Object Detection
中心思想: 在提出YOLOv4之前,作者先对现有的主流改进思路,进行了分类&综述 基于上述的改进思路进行尝试,整合,最终提出了YOLOv4。主要的贡献在于: 能够实现低成本的训练(只用1张卡) 验证了训练&预测过程中的一些trick Bag of Freebies Bag of Freebies指的是通过更好的训练方式来得到性能的提升,而这种训练方式不会对模型的预测(inference)带来比较大的负担 最常见的Freebie是数据增广,主要目的是提升训练数据的差异性,常用的数据原创 2020-06-04 19:26:08 · 520 阅读 · 0 评论 -
论文笔记:VarGNet: Variable Group Convolutional Neural Network for Efficient Embedded Computing
中心思想: 固定group convolution中每个group的channel个数,而不是遵循现有的做法:固定group的个数 各层之间的计算策略由于group channel个数的固定,使得模型在硬件端更容易优化 设计满足嵌入式端上网络的几种思路:两个方向 设计出算力需求少的网络(减少乘加次数,MAdds),如shufflenet v1/v2, mobilenet v1/v2 从FPGA(硬件)、编译器方面入手,优化卷积等操作的计算方式 但是上述的两个发展方向,往往是背道而驰的。如果单纯降低MA原创 2020-06-02 19:05:59 · 1747 阅读 · 0 评论 -
论文笔记:YOLOv3: An Incremental Improvement
Yolov3论文链接:https://pjreddie.com/media/files/papers/YOLOv3.pdf 中心思想 在原有的YOLO基础上加上一系列的细节改进从而使性能得到提升 相关改进: bbox的编码(转换):和YOLOv2采用相同的label坐标encode的方式如下,其中(bx,by,bw,bh)(b_x, b_y, b_w, b_h)(bx,by,bw,bh)分别是bbox的中心点以及宽高。 bx=σ(tx)+cxb_x = \sigma(t_x) + c_xb原创 2020-05-30 18:08:24 · 361 阅读 · 0 评论 -
论文笔记:EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
论文:https://arxiv.org/abs/1905.11946 中心思想 提出了一种同时对深度,宽度,尺度(这里指的是输入的分辨率)的网络扩展(scale)方式 以往的工作仅限于在width /height/resolution(input resolution)三者之一进行扩展 而同时调节这几个变量又费时费力 本文发现3个变量只需要同时乘一个系数就能得到比较好的效果,称为compound scale method,复合网络扩展 使用了网络结构搜索的方式,得到EfficientNet作为ba原创 2020-05-30 12:17:16 · 512 阅读 · 0 评论 -
论文笔记:SSD: Single Shot MultiBox Detector
中心思想: 直接通过一个神经网络实现目标检测。关键:不对特征进行重采样 在不同的尺度&比例的default box下(其实就是Anchor),将BBox的输出空间离散化成每个Feature Map中的点 使用了Multi-scale输出,预测时输出的是分数 + 偏移量(adjustment) 减少了Two-stage中的Proposal -> ROIPooling -> RCNN这种结构(SSD并非第一个这么做的,前面有YOLO,但是做了一系列的改进) 使得模型易于训练,并且能够达到T原创 2020-05-30 12:13:53 · 1229 阅读 · 0 评论 -
论文笔记:Focal Loss for Dense Object
中心思想 探究为什么one-stage detection(dense approach)会比two-stage(sparse approach)性能低。查出:根本原因是分类分支中前景&背景的比例严重失衡 为了解决这个问题,从Loss入手提出了focal loss,用于调整Loss低(分得比较好的)样本的权重,从而防止Loss高的少量样本被大量Loss低的样本淹没 为了验证focal loss的正确性提出了retinanet Class Imbalance Problem: 对于Two-sta原创 2020-05-28 20:51:26 · 435 阅读 · 0 评论 -
论文笔记:Rethinking ImageNet Pretraining——是否需要Pretrain
论文:https://arxiv.org/pdf/1811.08883.pdf 本文主要: 说明能在检测或者实例分割上通过From Scratch的方式得到比较好的效果 甚至能大部分复用finetune ImageNet预训练网络时候的超参,仅仅是迭代次数提升,都可以得到接近ft的效果 pretrain仅能够加速训练的收敛,不会对目标任务的指标提升起作用 这样的结论让人重新审视目前流行的 Pretrain-fintune流程 Intro 传统思路认为Pretrain学习了图像的一些通用特征,在此基础上原创 2020-05-17 21:58:19 · 727 阅读 · 0 评论 -
论文笔记 CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection
论文:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2003.09119.pdf 代码:https://github.com/KiveeDong/CentripetalNet 相关介绍:https://zhuanlan.zhihu.com/p/137539121 摘要: 本文提出了CentripetalNet ,主要解决的是Anchor Free,Corner Based检测中的Corner匹配问题,主要的贡献包括: 通过..原创 2020-05-16 10:31:54 · 709 阅读 · 0 评论 -
论文笔记:Object as Points
论文:https://arxiv.org/pdf/1904.07850.pdf 代码: https://github.com/xingyizhou/CenterNet 主要贡献: 摒弃了One stage 或者 two-stage的基于Anchor对BBox进行回归+分类的操作 将BBox为中心点+宽高这样的方式,从而直接将BBox的回归转换成角点的检测 同时这个BBox可以包含(编码)更多的信息,比如中心点 + 宽高 + 朝向 + 深度等 以点来代替Anchor回归+分类的机制,更高效 One-sta原创 2020-05-16 00:27:04 · 450 阅读 · 0 评论 -
论文笔记:Training Region-based Object Detectors with Online Hard Example Mining
论文:https://arxiv.org/pdf/1604.03540.pdf 简单来说,本文就是在Fast RCNN的基础上加入了在线难样本挖掘(Online Hard Example Mining, OHEM)。因此笔记也相应包含2部分:Fast RCNN的简单回顾&OHEM的介绍 Fast RCNN的回顾 Fast RCNN主要包含两个步骤:1. Convolution Network 在全图中通过CNN提取全局特征;2. ROI Network,通过ROI Pooling的方式提取出RO原创 2020-05-13 22:46:57 · 385 阅读 · 0 评论 -
论文笔记:AugFPN: Improving Multi-scale Feature Learning for Object Detection
代码:https://github.com/Gus-Guo/AugFPN 论文:https://arxiv.org/abs/1912.05384 摘要 现有的SOTA检测器都使用了构建特征金字塔(不同尺度的特征组合),来提升对不同尺度(大小)的目标的检测鲁棒性。而FPN是其中的代表性工作 本文对FPN进行了分析,找到了其中的一些设计上的缺陷 针对缺陷提出了3个改进点,也正是AugFPN的3个组成部分: Consistent Supervision:用于降低不同scale之间的语义Gap Residu.原创 2020-05-13 22:43:38 · 3958 阅读 · 1 评论 -
论文笔记:Quantizing deep convolutional networks for efficient inference: A whitepaper
地址:https://arxiv.org/abs/1806.08342 这篇白皮书统一介绍了当前将网络进行定点化的方法。下面将看到的重点记录下来。 为了降低深度神经网络的计算量以及带宽(内存占用量),一种简单可行的方式就是将浮点网络(网络权重都是float类型数值)转换成定点网络(网络权重都是或者部分是int8类型)具体来说,这么做的优势在于: 不用改变网络结构,不用重新训练 单个int8定点数的内存占用就已经是float32这种浮点数的1/4。显然这样的定点化转换能够降低模型的占用 降低运行时所需的带宽原创 2020-05-13 22:13:38 · 615 阅读 · 0 评论
分享