AVOD论文和代码解析

原创

已于 2023-02-24 09:54:48 修改 · 2k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #计算机视觉 #人工智能

于 2023-02-23 21:43:56 首次发布

1.介绍

AVOD（Aggregate View Object Detection）算法和MV3D算法在思路上非常相似，甚至可以说，AVOD是MV3D的升级版本

总的来说，和MV3D相比，AVOD主要做了以下一些改进：

（1）MV3D中使用VGG16的一部分进行特征提取。在AVOD中，作者使用了引入FPN层的Encoder-Decoder结构进行高分辨率点云和图片特征提取（如下图示）；
在这里插入图片描述 图1 AVOD中的特征提取层D
（2）MV3D中使用8个角点（每个角点由一个三维坐标表示）描述3D BBox。在AVOD中，作者使用4个角点（只包含x,y）和2个高度（共4*2+2=10）来描述一个3D BBox。

（3）还有一些改动我们后面再说

2 AVOD网络结构和流程

AVOD的网络结构如下图所示。
在这里插入图片描述
具体包括：

输入——>特征提取——>1×1卷积——>裁剪和大小缩放——>特征融合——>全连接——>NMS——>裁剪和大小缩放——>特征融合——>全连接——>NMS

2.1 输入

从图中可以看出，网络的输入有两个（并不是三个，3D Anchor grid某种意义上不算输入）。这两个输入分别为（1）图片输入；（2）俯视视角的3D点云数据。

图片数据不多说，就是前视图。BEV数据由两部分组成，分别为（1）高度图；（2）密度图。这里和MV3D不同的是，MV3D中还有强度图，AVOD作者觉得强度图的增益并不多，就把这个图给删了，这样还能降低计算量。

（a）高度图的获取方式：

选择点云数据的BEV视角[-40，40] × [0，70]的区域，划分为0.1米大小的一个个小方格（假设方格是个数是 $H$ × $W$ )。在每个小方格里，将高度区域为 [0,2.5] 划分为M个切片，每个切面范围内找到最大高度点云对应的高度即可。这样总共获得了 $H$ × $W$ ×

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。