attention transformer单目3D和bev综述

AIchiNiurou

已于 2025-02-13 09:39:42 修改

阅读量881

点赞数 24

文章标签： 3d android

于 2024-07-11 18:42:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44523062/article/details/140350168

版权

文章目录

SOTA
2D 检测
单目3d检测
3d bev cam范式

SOTA

（指标 3D mAP， NDS，分割 mIOU）
可以查看nscenes 官网
https://www.nuscenes.org/object-detection?externalData=all&mapData=all&modalities=Camera

https://www.aizyt88.com/2135.html
wx72156@126.com
Wx0912…

2D 检测

Anchor-based方案
Two-stage Detectors
RCNN
Fast RCNN
Faster RCNN
One-stage Detectors
SSD
YOLO
Anchor-free方案
FCOS
CenterNet

Transformer方案：DETR

单目3d检测

先验几何信息
自动标注：基于sam，点云投影到图像获取点云分割 label，生成3Dboxes

3d bev cam范式

核心：视角转换
流派：
MLP： VPN，PON
LSS：BEVDET，BEVDET4D,bevdepth
Transformer： (DETR2d延伸)DETR3D, BEVFORMER, PETR, PETRV2

1 Transformer attention is all you need 2017

Transformer中selfatt和muitlhead-att

感受野大：全局交互，
位置编码：与全局交互，顺序改变自己本身attention 输出向量不受影响，这是不对的，因此要位置向量加入input
多头atten： q，k，v 进行分组，一组为一个head，然后输出 concat，然后输出 * Wo 得到输出

Multi-Head的优势在哪儿呢？如下图所示，绿色的部分是一个head的query和key，而红色部分则是另一个head的query和key，我们可以看出来，红色head更关注全局信息，绿色head更关注局部信息，Multi-Head的存在其实就是是的网络更加充分地利用了输入的信息：

FEED FORWARD 必要性解释，非线性映射，激活更重要的特征

而在Multi-Head Attention层之后还添加了一层Feed Forward层。Feed Forward层是一个两层的fully-connection层，中间隐藏层的单元个数为d_ff = 2048。这里在学习到representation之后，还要再加入一个Feed Forward的作用我的想法是：
注意到在Multi-Head Attention的内部结构中，我们进行的主要都是矩阵乘法（scaled Dot-Product Attention），即进行的都是线性变换。而线性变换的学习能力是不如非线性变化的强的，所以Multi-Head Attention的输出尽管利用了Attention机制，学习到了每个word的新representation表达，但是这种representation的表达能力可能并不强，我们仍然希望可以通过激活函数的方式，来强化representation的表达能力。比如context：The animal didn’t cross the road because it was too tired，利用激活函数，我们希望使得通过Attention层计算出的representation中，单词"it"的representation中，数值较大的部分则进行加强，数值较小的部分则进行抑制，从而使得相关的部分表达效果更好。（这也是神经网络中激活函数的作用，即进行非线性映射，加强大的部分，抑制小的部分）。我觉得这也是为什么在Attention层后加了一个Layer Normalizaiton层，通过对representation进行标准化处理，将数据移动到激活函数的作用区域，可以使得ReLU激活函数更好的发挥作用。同时在fully-connection中，先将数据映射到高维空间再映射到低维空间的过程，可以学习到更加抽象的特征，即该Feed Forward层使得单词的representation的表达能力更强，更加能够表示单词与context中其他单词之间的作用关系。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2 ViT vision transformer ICLR 2021google

TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

感受野大：patch 和 patch之间进行全局交互，提取得到监督信号注意力集中的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。