
论文阅读
文章平均质量分 94
Laughing-q
打工人打工魂打工就是人上人
展开
-
Progressive Hard-case Mining across Pyramid Levels in Object Detection论文阅读
Progressive Hard-case Mining across Pyramid Levels in Object Detection论文阅读ContributionsThe Statistical Analysis on Level Imbalance实验设置特征层级的不平衡统计Unified Multi-level Optimization ParadigmLevel-wise Resampling ParadigmProgressive Focal LossExperiments不同的检测器分析原创 2021-09-18 15:54:43 · 720 阅读 · 0 评论 -
YOLOX: Exceeding YOLO Series in 2021论文阅读
YOLOX: Exceeding YOLO Series in 2021论文阅读YOLOv3 baseline调整训练策略数据增强ImprovementDecouple HeadStrong data augmentationAnchor-freeMulti positiveSimOTAEnd-to-End YOLOOther BackbonesYOLOv5Tiny/Nano 检测器Model size和data augmentationSOTA比较paper:https://arxiv.org/pdf/原创 2021-07-20 17:04:18 · 1515 阅读 · 3 评论 -
Focal Self-attention for Local-Global Interactions in Vision Transformers论文阅读
Focal Self-attention for Local-Global Interactions in Vision Transformers论文阅读介绍方法Focal self-attentionWindow-wise attentionSub-window pooling.Attention computation.Complexity analysisModel configuration实验图像分类目标检测和实例分割语义分割与SOTA方法比较消融实验window sizewindow shift原创 2021-07-10 13:42:33 · 1894 阅读 · 1 评论 -
CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读
CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在Swin Transformer上的模型适用性消融实验paper:https://arxiv.org/pdf/2107.00420v2.pdfcode:https://github原创 2021-07-08 18:54:02 · 2656 阅读 · 2 评论 -
Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读
Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读摘要介绍相关工作方法Dynamic Head扩展到现存的检测器实验实验细节消融实验消融实验使用ResNet50作为backbone实现scale与spatial可视化Dynamic Head的深度扩展到现存的目标检测器与SOTA比较与不同的ResNe(X)t系列backbone搭配与SOTA检测器的比较与transformer backbone搭配SOTApaper:https原创 2021-06-17 16:12:56 · 4457 阅读 · 18 评论 -
You Only Learn One Representation: Unified Network for Multiple Tasks论文阅读
You Only Learn One Representation: Unified Network for Multiple Tasks论文阅读摘要介绍implicit knowledge 如何工作?Manifold space reductionKernel space alignmentMore functions统一网络中的implicit knowledgeimplicit knowledge的形成建模implicit knowledge训练推理实验实验设置FPN中的Feature alignme原创 2021-05-19 16:57:12 · 2823 阅读 · 5 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读摘要介绍相关工作方法整个架构基于self-attention的shifted window架构变种实验消融实验paper:https://arxiv.org/pdf/2103.14030v1.pdfcode: https://github.com/microsoft/Swin-Transformer摘要采用transformer来做计算机视觉任务有两个原创 2021-03-30 17:21:57 · 5927 阅读 · 0 评论 -
You Only Look One-level Feature论文阅读
You Only Look One-level Feature论文阅读介绍贡献慨括相关工作MiMo的cost分析方法受限制的尺度范围positive anchors的不平衡YOLOF实验与DETR的比较与YOLOV4的比较消融实验错误分析结论paper: https://arxiv.org/abs/2103.09460code: https://github.com/megvii-model/YOLOF介绍FPN通过其多尺度融合和分而治之(多个输出),能够大大提升检测器的精度;作者将FPN看做原创 2021-03-24 11:48:06 · 868 阅读 · 0 评论 -
Object Detection Made Simpler by Eliminating Heuristic NMS
Object Detection Made Simpler by Eliminating Heuristic NMS翻译 2021-02-27 18:44:42 · 720 阅读 · 2 评论 -
End-to-End Object Detection with Fully Convolutional Network论文翻译
End-to-End Object Detection with Fully Convolutional Network论文翻译摘要1.介绍2.相关工作2.1 全卷积目标检测器2.2 端到端的目标检测3.方法3.1 标签分配的分析3.1.1 One-to-many标签分配3.1.2 手工设计的One-to-one标签分配3.2 我们的方法3.2.1 Prediction-aware One-to-one标签分配3.2.2 3D Max Filtering3.2.3 辅助损失4. 实验4.1 实现细节4.2原创 2020-12-08 18:55:29 · 2038 阅读 · 1 评论 -
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译摘要论文地址:Sparse R-CNN: End-to-End Object Detection with Learnable Proposals代码地址:https://github.com/PeizeSun/SparseR-CNN摘要我们提出了Sparse R-CNN,一种纯稀疏的方法用于图像中的目标检测。现有的目标检测工作很大程度上依赖于密集候选目标,如在原创 2020-12-04 18:11:06 · 1330 阅读 · 0 评论 -
CVPR2021 Generalized Focal Loss V2论文翻译
Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection论文翻译摘要论文地址:Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection代码地址:https://github.com/implus/GFocalV2原创 2020-12-03 11:52:49 · 1904 阅读 · 5 评论 -
ECCV2020 TIDE: A General Toolbox for Identifying Object Detection Errors
ECCV2020 TIDE: A General Toolbox for Identifying Object Detection Errors论文翻译摘要1.介绍2.工具2.1 计算mAP2.2 定义错误类型2.3计算错误的限制3.分析3.1验证设计选择3.2 比较目标属性进行精细分析3.3 不同数据集之间的比较3.4 不可避免的误差4.结论参考论文地址:TIDE: A General Toolbox for Identifying Object Detection Errors工具代码地址:http原创 2020-11-20 12:00:16 · 3022 阅读 · 1 评论 -
CVPR2020 CSPNet: A New Backbone that can Enhance Learning Capability of CNN
CVPR2020 CSPNet: A New Backbone that can Enhance Learning Capability of CNN论文翻译摘要1.介绍2.相关工作3.方法3.1 Cross Stage Partial Network3.2 Exact Fusion Model4.实验4.1 实现细节4.2 消融实验4.3 ImageNet图像分类4.4 MS COCO目标检测4.5 分析5.结论参考文献论文地址:CSPNet: A New Backbone that can Enhan原创 2020-11-19 13:00:41 · 1585 阅读 · 3 评论 -
Scaled-YOLOv4: Scaling Cross Stage Partial Network 论文翻译
摘要实验结果表明,基于CSP方法的YOLOv4目标检测神经网络在保持最优速度和准确率的前提下,具有向上/向下可伸缩性,可用于不同大小的网络。我们提出了一种网络缩放方法,它不仅改变深度、宽度、分辨率,而且还改变网络的结构。YOLOv4-large模型实现了SOTA的结果:在Tesla V100上,以15 FPS的速度对MS COCO数据集实现了55.4% AP (73.3% AP50),而伴随着TTA,YOLOv4-large实现了55.8% AP (73.2 AP50)。YOLOv4-tiny模型在RTX原创 2020-11-18 16:46:30 · 3698 阅读 · 6 评论 -
CVPR2020 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector论文翻译
ECCV2020 Flow-edge Guided Video Completion20论文翻译论文地址:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector翻译 2020-11-17 17:37:32 · 2019 阅读 · 6 评论 -
CVPR2020 Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax
摘要论文地址利用基于深度学习的模型解决长尾大词汇量目标检测是一项具有挑战性和高要求的任务,但目前研究还不足。在本研究中,我们首次系统地分析了最先进的模型在长尾分布前的不足之处。我们发现,现有的检测方法在数据集严重倾斜时无法对few-shot类进行建模,这将导致分类器在参数量级上不平衡。...原创 2020-11-16 11:39:06 · 832 阅读 · 4 评论 -
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文翻译
AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文翻译摘要1.介绍2.相关工作3.方法3.1 VISION TRANSFORMER (VIT)3.2微调和更高的分辨率4.实验4.1设置4.2 与SOTA的比较4.3训练的数据需求4.4 scale研究4.5 审视VISION TRANSFORMER4.6 自监督5.结论论文地址:AN IMAGE IS WORTH 16X16 WORDS:TRANSFORME原创 2020-11-12 11:30:16 · 2741 阅读 · 4 评论 -
ECCV2020 Learning Data Augmentation Strategies for Object Detection
摘要数据增强是训练深度神经网络的重要组成部分。虽然数据增强能够显著提升图像分类的效果,但它的潜力还没有被彻底的研究对象检测。考虑到为目标检测注释图像的额外成本,数据增强可能对这个计算机视觉任务更重要。在这项工作中,我们研究了数据增强对目标检测的影响。我们首先证明了从图像分类中借鉴的数据增强操作可能有助于训练检测模型,但改进有限。因此,我们研究如何学习,专门的数据增强策略提高检测模型的泛化性能。重要的是,这些增强策略只影响训练,并在评估期间保持训练模型不变。在COCO数据集上的实验表明,优化后的数据增强策略原创 2020-11-11 11:16:33 · 1338 阅读 · 0 评论 -
ECCV2020 AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling论文翻译
ECCV2020 AABO论文翻译摘要1.介绍2.相关工作3.提出的方法3.1 初步分析3.2 anchors的搜索空间优化3.3 通过子抽样的贝叶斯锚优化4.实验4.1数据集,指标和实现细节4.2 anchor优化的结果4.3 在SOTA方法上的最佳锚定设置的好处4.4 与其他优化方法的比较4.5消融研究5.结论参考论文地址:AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling摘要大原创 2020-10-23 12:09:57 · 1357 阅读 · 5 评论 -
DETR与Deformable DETR小结
DETR与deformable DETR小结DETRDeformable DETRDETR论文地址https://arxiv.org/abs/2005.12872论文解读DETR将检测视为集合预测问题,简化了目标检测的整体流程。它没有现在主流的目标检测器中的anchor、label assign、nms等操作,做到了真正的end-to-end。它主要采用了Transformer的编解码结构,它在序列预测任务上大获成功。Transformer中的自注意力机制显示地界定了序列中元素间的相互作用,因此可以原创 2020-10-20 11:17:16 · 13287 阅读 · 2 评论 -
Deformable DETR论文翻译
Deformable DETR论文翻译摘要1.介绍2.相关工作3. 回顾transformer和DETR4.方法4.1 端到端目标检测中的可形变transformer4.2 DEFORMABLE DETR中额外的改进和提升5.实验5.1 与DETR的比较5.2 DEFORMABLE ATTENTION的消融实验5.3 与SOTA方法的比较6.结论论文地址:DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION摘要原创 2020-10-19 18:23:51 · 7915 阅读 · 1 评论 -
NeurIPS2020 Generalized Focal Loss论文翻译
Generalized Focal Loss论文翻译摘要1. 介绍光流边缘引导的视频补全算法论文地址:Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection摘要one-stage检测器基本将目标检测制定为稠密分类和定位(即边框回归)。分类通常由Focal loss优化,边框定位一般用狄拉克δ函数来学习。one-stage检测器的最新趋势是引入一个单独的预测原创 2020-09-20 14:27:58 · 1750 阅读 · 0 评论 -
EfficientNet详解
EfficientNetsEfficientNetsNAS(neural architecture search)Single ScalingCompound ScalingEfficientNetsEfficientNets是google在2019年5月发表的一个网络系列,使用神经架构搜索设计了一个baseline网络,并且将模型放大获得一系列模型。它的精度和效率比之前所有的卷积网络都好。尤其是EfficientNet-B7在ImageNet上获得了最先进的 84.4%的top-1精度 和 97.1%原创 2020-05-24 17:37:30 · 10086 阅读 · 0 评论 -
EfficientDet详解
EfficientDetEfficientDet是google在2019年11月发表的一个目标检测算法系列,分别包含了从D0~D7总共八个算法,对于不同的设备限制,能给到SOTA的结果,在广泛的资源约束下始终比现有技术获得更好的效率。特别是在单模型和单尺度的情况下,EfficientDet-D7在COCO测试设备上达到了最先进的52.2AP,具有52M参数和325B FLOPs,相比与之前的算法,参数量缩小了4到9倍,FLOPs缩小了13到42倍。首先,google提出了一种加权双向特征金字塔网络(Bi原创 2020-05-24 19:37:13 · 11982 阅读 · 2 评论 -
DetectoRS论文解读
DetectoRSDetectoRSIntroduceRecursive Feature PyramidFeature Pyramid NetworksRecursive Feature Pyramidbackbone输入的不同RFP中的特征提取特征融合模块Switchable Atrous ConvolutionAtrous ConvolutionSwitchable Atrous ConvolutionGlobal Context插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定原创 2020-06-09 12:30:59 · 3919 阅读 · 1 评论 -
FairMOT论文解读
FairMOTFairMOTFairMOT介绍Two-step方法One-shot方法The Technical ApproachbackboneDetection BranchHeatmap HeadCenter Offset HeadBox Size HeadIdentity Embedding BranchLoss FunctionsHeatmap LossOffset and Size LossIdentity Embedding LossOnline TrackingNetwork Inferen原创 2020-08-07 17:12:26 · 4787 阅读 · 0 评论 -
ECCV2020 Flow-edge Guided Video Completion20论文翻译
ECCV2020 Flow-edge Guided Video Completion20论文翻译摘要1.介绍光流边缘引导的视频补全算法论文地址:Flow-edge Guided Video Completion20摘要我们提出了一个新的基于光流的视频修复算法。之前的光流修复算法通常无法保持运动边界的锐度。我们的方法首先提取并完成运动边缘,然后利用运动边缘来引导具有锐边的分段光滑流补全。现有的方法在相邻帧之间的局部光流连接之间传播色彩。然而,并不是视频中所有缺失的区域都可以用这种方法进行恢复,因为运动原创 2020-09-14 22:11:52 · 3669 阅读 · 1 评论 -
ECCV2020 Piou Loss论文翻译
摘要:目标检测使用方向边界框(OBB)可以通过减少背景的重叠区域更好的检测到旋转物体。现存的方向边界框(OBB)大多数建立在横向边界框基础上,通过增加一个距离损失来做角度回归。然而基于距离损失的角度回归只能最小化角度距离,对于iou却很不敏感,它对高长宽比的对象不敏感。因此,一个新颖的损失函数Pixels-IoU (PIoU) Loss,就是设计成利用角度和IoU来进行精确的OBB回归。PIoU损失是由像素方向的IoU度量得到的,一个简单的并且适合方向边界框和横向边界框的方法。为了验证它的有效性,我们在an原创 2020-09-04 14:08:03 · 1933 阅读 · 1 评论