
论文阅读
文章平均质量分 91
w_study_ty
一个刚开始学AI努力看论文的小学生
展开
-
Swin Transformer:Hierarchical Vision Transformer using Shifted Windows 论文阅读
该论文是Transformer模型在计算机视觉领域的应用,Swin Transformer的输入与DETR不同,同为Transformer模型在计算机视觉领域的应用,Swin Transformer是直接将image作为输入不需要CNN为主干网络进行特征提取,而且DETR是将image输入到CNN主干网络中进行特征提取,然后将feature map当作输入进行embedding。Swin Transformer提出的层级转换器,为了解决计算复杂度问题,以及多层特征融合问题,其中对patch进行编码和层级转换原创 2021-12-06 18:45:51 · 2281 阅读 · 0 评论 -
Deformable DETR:DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文阅读
该论文为Transformer跨界论文,在原有的DETR的基础上做出改进,并且在COCO 2017数据集上取得了理想的成绩。该模型针对DETR收敛速度慢,训练时间长和对小物体检测效果不理想进行了相应的改进。网络结构该论文与DETR结构类似,同样也是由CNN进行特征的提取,通过Transformer模块进行特征和位置编码解码。1.主干网络Deformable DETR的主干网络也是采用的CNN进行特征提取,该论文主要使用了ResNet-50和ResNet-101作为主干网络,在ImageNet上进原创 2021-10-12 20:10:35 · 826 阅读 · 0 评论 -
Anchor DETR: Query Design for Transformer-Based Detector 论文阅读
该论文为为最近比较热门的Transformer跨界论文,以DETR为基础进行改进,并且再COCO数据集上取得了很好的成绩。该结构主要就两个方向进行改进,第一个是同一区域多个目标的问题,第二个是attention机制内存消耗的问题。网络结构该论文与DETR结构类似,同样由CNN与Transformer组成。先由CNN进行特征提取, 再由Transformer结构将特征进行编码和预测。1.主干网络该论文中主干网络与DETR相同,同样是CNN进行提取特征,本文中主要使用ResNet-50和ResNet原创 2021-10-03 11:14:30 · 1339 阅读 · 0 评论 -
End-to-End Object Detection with Transformers 论文阅读
该论文为跨界论文,将机器翻译的Transformer结构用在了目标检测以及语义分割上,在COCO数据集上超越了Faster R-CNN。将Transformer应用到计算机视觉方面,简化了检测的流程(不需要很多手动设计的组件,如非最大抑制,或者锚)。该网络基于集合的全局损耗,通过二分匹配和Transformer中的编码解码器架构来进行预测。网络结构该论文由CNN与Transformer组成,由CNN提取特征,再通过Transformer结构将特征进行编码预测。下图为网络各部分具体的结构。1.主干原创 2021-09-02 12:40:42 · 311 阅读 · 0 评论 -
Attention Is All You Need 论文学习
该论文为机器翻译方向。是attention机制为基础,以减少顺序计算为目标,将编码器解码器的复杂递归或卷积神经网络改进成本文的Transformer网络架构,避免了递归和卷积的使用。实验中表明,该模型在质量上更优越,同时更具有并行性,并且减少了训练的时间。网络结构上图为Transformer的网络结构,采用堆叠的自注意力(self-attention)和逐点全连接的解码器和编码器。编码器(Encoder)编码器结构为上图左边,由N=6个的相同层堆叠而成,每层有两个子层。这两个子层分别由Multi-原创 2021-08-19 10:17:48 · 133 阅读 · 0 评论 -
Single-Shot Refinement Neural Network for Object Detection论文学习
该论文为one-stage目标检测。设计了ARM(Anchor Refinement Module)、TCB(Transfer Connection Block)、ODM(Object Detection Module)。通过ARM将box由粗到细的进行回归,再通过TCB将特征输入到ODM中。网络结构该论文采用的FPN(Feature Pyramid Network),使用了VGG16和ResNet-101作为主干网络,分别构建了ARM和ODM进行回归和分类,通过TCB将ARM和ODM的每层进行原创 2021-07-14 10:03:19 · 158 阅读 · 0 评论 -
R3Det: Refined Single-Stage Detector with Feature Refinementfor Rotating Object论文学习
该论文为one-stage目标检测。是以RetinaNet为基础,增加了FRM(feature refinement module)以及设计了一个可导的近似偏斜损失函数(approximate SkewIoU),目的为了解决目标检测的三大挑战:1.大纵横比目标,2.密集目标的图像,3.任意旋转目标的图像。针对不同的场景做出相对应的解决方案。网络结构该论文是在RetinaNet的基础上进行增加新的模块和改变损失函数设计而成的,每层FPN连接着分类子网(class subnet)和边界盒回归子网(b原创 2021-07-09 12:07:31 · 1996 阅读 · 3 评论 -
Focal Loss for Dense Object Detection论文学习
本文为one-stage目标检测。主要对损失函数进行改进(Focal Loss),用来解决正负样本类别不平衡问题,并且增加hard sample在损失函数中的重要性。网络结构本文的网络名为RetinaNet,基于FPN(Feature Pyramid Networks)。以FPN为主干网络,FPN可以提取不同尺度的特征。在每个特征层有两个子网络,一个是分类子网络(class subnet),另一个是边界盒回归子网络(box subnet)。1.分类子网络(class subnet)分类子原创 2021-07-08 14:36:09 · 332 阅读 · 0 评论