
transformer
文章平均质量分 93
.JQY
学习笔记本
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RT-DETR:《DETRs Beat YOLOs on Real-time Object Detection》
基于Transformer的端到端检测器(DETR)的高计算成本问题尚未得到有效解决,这限制了它们的实际应用,并使它们无法充分利用无后处理的好处,。本文首先分析了现代实时目标检测器中NMS对推理速度的影响,并建立了端到端的速度基准。为了避免NMS引起的推理延迟,作者提出了一种实时检测Transformer(RT-DETR),这是第一个实时端到端目标检测器。具体而言,原创 2023-04-27 21:22:59 · 1297 阅读 · 0 评论 -
DETR:End-to-End Object Detection with Transformers
我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了对许多手工设计组件的需求,例如非最大值抑制过程或锚生成,其显式地编码我们关于任务的先验知识。新框架的主要成分,称为 DEtection TRansformer 或 DETR,是基于集合的全局损失,通过二分图匹配强制进行独特的预测,以及Transformer编码器-解码器架构。给定一组固定的学习对象查询,DETR 推理对象的关系和全局图像上下文以直接并行输出最终的预测集。原创 2022-10-15 16:18:13 · 1540 阅读 · 0 评论 -
ViTDet:Exploring Plain Vision Transformer Backbonesfor Object Detection(arXiv 2022)
本文提出了一种简单、无层次的视觉Transformer(ViT)作为目标检测的骨干网络。这种设计使原始的ViT架构能够针对对象检测进行微调,而无需重新设计用于训练前的分层主干。通过对微调的最小调整,我们的普通骨干检测器可以获得具有竞争力的结果。令人惊讶的是,我们观察到:(i)从单尺度特征图(没有常见的FPN设计)构建一个简单的特征金字塔是足够的,(ii)在很少的跨窗口传播块的辅助下,使用窗口注意(不移动)是足够的。原创 2022-10-11 14:58:25 · 2809 阅读 · 0 评论 -
VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arXiv 2021)
基于自注意力的架构,尤其是Transformer,已经成为自然语言处理(NLP)中选择的模型。主要的方法是在大型文本语料库上进行预训练,然后在较小的任务特定数据集上进行微调。由于Transformer 的计算效率和可扩展性,训练具有超过100B参数的空前规模的模型成为可能。随着模型和数据集的增长,仍然没有表现出饱和的迹象。然而,在计算机视觉中,卷积架构仍然占主导地位。受到NLP成功的启发,许多作品尝试将CNN类架构与自注意力结合,一些完全取代卷积全部使用自注意力。原创 2022-08-21 18:35:05 · 962 阅读 · 1 评论 -
Attention Is All You Need (Transformer 原文)
循环神经网络、长短期记忆和门控循环神经网络,在语言建模和机器翻译等序列建模和转导问题中已被牢固确立为最先进的方法。此后,许多努力继续推动循环语言模型和编码器-解码器架构的界限。循环模型通常沿输入和输出序列的符号位置考虑计算。将位置与计算时间的步骤对齐,它们生成一系列隐藏状态 ht,作为先前隐藏状态 ht-1 和位置 t 的输入的函数。这种固有的顺序性质排除了训练示例中的并行化,这在更长的序列长度下变得至关重要,因为内存限制限制了示例之间的批处理。原创 2022-10-01 10:37:38 · 3167 阅读 · 0 评论