深度学习之NLP学习笔记(五)—DETR与ViT

ViT

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Vision Transformer(ViT)将输入图片拆分成16x16个patches,每个patch做一次线性变换降维同时嵌入位置信息,然后送入Transformer,避免了像素级attention的运算。类似BERT[class]标记位的设置,ViT在Transformer输入序列前增加了一个额外可学习的[class]标记位,并且该位置的Transformer Encoder输出作为图像特征。

Self-attention 是quadratic级别的时间和内存复杂度。

我们使用简短的符号来表示模型大小和输入Patch大小:例如,ViT-L/16表示具有16×16输入补丁大小变量。值得注意,Transformer的序列长度与补丁尺寸的平方成反比,因此补丁尺寸较小的模型的计算成本更高。其中,HW为原图像分辨率,PP为每个图像patch的分辨率。N=HW/P*P为Transformer输入序列的长度。


DETR

End-to-End Object Detection with Transformers

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jeremy_lf

你的鼓励是我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值