
BEV Perception
文章平均质量分 90
bird‘s eye view perception
m_buddy
大表哥,还有大招吗... PS:本人所有文章均免费公开,任何收费条目请咨询平台
展开
-
PriorMapNet:Enhancing Online Vectorized HD Map Construction with Priors
对于车道线元素query使用的是inst-query+point-query组合的方式,只不过在deformable-attn过程中ref-point发生了变化,是使用prior-points去生成的。训练场景中的车道线千变万化会导致query方式预测方式变得较难收敛或者性能较低,之前的一些工作有将mask信息引入到pipeline中为query提供instance-level的语义信息,但是对于point-level信息就需要自己去学习了。,以此来将point-level的先验信息引入到网络。原创 2024-08-26 00:40:57 · 1023 阅读 · 0 评论 -
MapTracker:Tracking with Strided Memory Fusion for Consistent Vector HD Mapping
对于tracking的思想是使用历史帧信息,历史帧信息中query与GT匹配关系、query特征表达均会传递到当前帧,在给新目标分配额外object query的同时,用以上信息完成帧间流转之后去检测。为了提升帧间检测的稳定性通常会添加时许信息,这个可以BEV特征处做时序融合,也可以是用当前帧query去cross-attn历史帧信息,则更多的时候是将之前帧信息与当前做融合或者cross-attn实现信息传递,是一种只在当前帧做检测的思路。这篇文章提出使用tracking的思路去做帧间融合,也就是。原创 2024-04-11 01:07:46 · 1252 阅读 · 0 评论 -
MGMap:Mask-Guided Learning for Online Vectorized HD Map Construction
这里使用bevformer去构建初始BEV特征,之后通过EML Neck(带channel-wise和spatial-wise的attention)去构建不同尺度的特征,用以满足不同目标感受野需求的不同。在逐层优化之后会输出query-embedding和query-coords,deformable-attn是通过offset学习的方式去确定需要抓取的信息,这是稀疏且粗糙的。(栅格化描述在实际量产中是已被验证的),这样有了栅格化作为性能的baseline,再从向量化维度去提升性能上限。原创 2024-04-08 19:18:39 · 1296 阅读 · 0 评论 -
NMP:Neural Map Prior for Autonomous Driving
也就是利用车端感知网络获取当前位置处BEV特征,同时依据定位信息从全局BEV特征中抠取对应区域BEV特征,再与当前感知网络BEV特征做融合,融合BEV特征通过定位信息将其更新到全局BEV特征上去,最后在融合BEV特征上做感知预测。借用辅助信息的网络肯定会带来性能提升(天气、光照变化、黑夜等场景下的鲁棒性会增强),至少这一点是可以确定的,就是辅助信息的形式和如何获取需要再探讨,是使用地图、时序?这个特征就用于去得到感知结果和更新全局BEV特征了。和依据当前位置获取的全局BEV特征。原创 2024-04-03 17:11:14 · 1046 阅读 · 0 评论 -
P-MapNet:Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors
在Step1中通过预训练的方式得到网络初始参数,那么以感知初始结果作为输入使用预训练参数进行finetune,就可以依据HDMap中的先验信息去进一步优化感知的结果。BEV特征(上图中展示的BEV特征应该是经过PV2BEV之后的,因为并未看到与图像特征做交互)通过cross-attn之后相当于就是引入到道路先验,之后再经过预测网络得到初步感知结果。感知的终极目的时在线构建高精地图,而感知+地图的结果只能说是在鲁棒性、稳定性上好于纯视觉的方案,对此这篇文章设计了一个refine网络,这个网络。原创 2024-03-30 22:04:45 · 1073 阅读 · 1 评论 -
HIMap:HybrId Representation Learning for End-to-end Vectorized HD Map Construction
这里对于局部的理解可以看作是地面元素中的点(文中描述为points-level),全局的理解可以看作是地面元素整体(通常理解为实例,文中描述为elements-level)。对于回归任务较难的问题,自然想法就是引入其它信息,其实实例的几何信息也是很重要的,这个几何信息直观表现就是mask信息,而mask预测是一个分类任务天然就比回归任务容易学习。然而由分割任务基础上去预测points的回归也是很难的(没有很好学习point-level的信息),就如下面图中第2、3格子的图。对应下图中第1格子的图。原创 2024-03-30 00:52:06 · 1191 阅读 · 0 评论 -
Stream Query Denoising for Vectorized HD Map Construction
明显的差异是其在StreamMapNet的基础上增加了去噪分支,这个分支需要确定参与去噪的地图元素与当前帧的对应关系(也就是上图中的Adaptive Temporal Matching),以及寻找到对应关系之后依据元素之间的距离计算加噪声的力度(也就是上图中对应的Dynamic Query Noising)。这里将地图元素描述为有序点的形式,用一个外接矩形去包围它,那么调整外接矩形中心的位置和宽高就可以调整这个地面元素上点的位置了,因为设定了地图元素上每个点相对矩形的相对位置是不变的。原创 2024-02-13 00:08:18 · 985 阅读 · 0 评论 -
ADMap:Anti-disturbance framework for reconstructing online vectorized HD map
局部地图构建算法在实际中会遇到部分车道线偏离的或是错误的情况,这往往是全局信息获取上存在欠缺,毕竟地图元素的回归很依赖于全局信息的获取。其实抛开多模态特征融合网络部分不谈,在上图中描绘了文章的两个工作MPN和IIA,前一个用于融合Camera和Lidar的信息,后一个用于增强query内部的信息关联。MPN的结构在上图中已经和清楚了,也就是使用多尺度的方式融合不同模态信息。,而且其中的inter和intra两个类型的attention具体哪个模块起的作用更大和摆放的位置在之前的工作中已经有了实验和说明了。原创 2024-02-11 00:21:52 · 498 阅读 · 1 评论 -
MapNeXt:Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction
在原本的MapTR中query-pos是通过torch.split()操作得到的,其本身是没有任何位置先验信息的,而query-pos是比较重要的信息,给它以明确的先验信息是能够提升网络的性能的。有了上述permutation的过程,实际GT的数量得到增加,那么对应query的数量也会增加,则有效query的占比就增加了,那么参与更新的query变多,梯度下降的方向更加具有方向性,收敛速度更快。在给定的集合上其实是看不出IPM、BEVFormer、GKT这些BEV特征提取算法的优劣的,但是在。原创 2024-02-10 23:50:39 · 900 阅读 · 0 评论 -
PointBeV:A Sparse Approach to BeV Predictions
按照上面的思路文章的方案会在2D BEV空间上按照一定的策略去采样一些点,并将这些采样点按照类似FastBEV的方式从2D图像中获取粗略的BEV特征,这些粗略的BEV特征会经过由粗到精细化模块得到最后的BEV特征。但是在做attention的时候是需要考虑计算的范围的,这些计算的范围也需要ego-motion的加持(那么这个东西不准的时候呢?但是文章的中的减少内存和计算资源开销的思想还是可以借鉴的,或许在后续的科研与工作中用到。文章的方案突出的稀疏特性,那么BEV采样点自然也是稀疏的,在。原创 2024-02-09 00:08:36 · 868 阅读 · 0 评论 -
FB-BEV:BEV Representation from Forward-Backward View Transformations
前者产生的BEV特征是稀疏的矩阵,后者产生的BEV特征在深度上是不可知的,也就是无法感知实际物体中的深度。对此,文章结合两种BEV投影的方法构建了一个BEV转换策略,既是首先使用“push”的方法构建一个base BEV特征,由于这些特征比较粗糙使用一个“RPN”细化并区分其中的前景和背景,再将确定的前景背景点去“pull”信息来优化BEV,在这个过程中都会用到估计出来的深度分布和假定的深度分布(用于与估计的深度分布联合计算特征融合概率)。)和BEV网格构建的深度分布(下图中对应的。,也就是下图中对应的。原创 2024-02-06 21:55:36 · 1319 阅读 · 0 评论 -
InsightMapper:A closer look at inner-instance information for vectorized High-Definition Mapping
之前的一些工作中使用inst_query加上共享point_query的方式(Hierarchical query方式构建),这样方式的含义是point_query需要去学习所有车道线的几何信息,但是车道线之间是差异很大的,强行去表达这些信息对这么少的共享参数是较难表达的,那么一个办法就是对每个inst_query都分配一组point_query以此来构建最终query(Hybrid query方式构建)。再者,场景中的车道线在线内部和线之前是存在关联的,它们之间的关联是否被有效挖掘。也是可以实验一下的。原创 2024-01-09 00:37:17 · 1050 阅读 · 0 评论 -
QTNet:Query-based Temporal Fusion with Explicit Motion for 3D Object Detection
其实在了解完整篇文章的思路之后会觉得文章的方案其实并不是那么靠谱,在文章的方案中分类、速度预测、ego-motion精度等是关键因素,直接影响了attn-mask的质量,要是这些拉垮了,那就完犊子了。这俩方案具有各自的优缺点,那么基于query的方式便是一种折中的考量了,query中包含了物体语义信息,reference point中包含了位置信息,而这篇文章提出的方案便是在query的维度上对齐(按照距离作为度量对齐),之后再去做感知预测。,那么在ego-motion下实现前一帧道当前帧的变换。原创 2023-12-21 00:46:10 · 1367 阅读 · 1 评论 -
GeMap:Online Vectorized HD Map Construction using Geometry
此外在车道线解码过程中attn_mask也可以做些改进,比如MapTR-V2种的inter和intra两个维度的attention可以做得更细粒度一点,也就是做intra-attn的时候只关注本车道线内部,做inter-attn的时候只关注除自身之外的其它实例,出了原本针对单点的L1损失,车道线具备的几何结构信息作为监督信息也可以再被挖掘挖掘,像车道线实例中点和点之间的距离与夹角、线与线之间的夹角、不同线上点与点之间的关系都可用来作为监督约束,,这个attn_mask的机制还是有借鉴价值的。原创 2023-12-13 00:19:37 · 759 阅读 · 0 评论 -
MapVR:Online Map Vectorization for Autonomous Driving, A Rasterization Perspective
再对比回归任务和分割的分类任务,这两者任务本质上就存在较大的差异,分类任务具备较强先验知识,因而相对回归任务会表现更加鲁棒,同时再结合分割任务需要的全局和局部感知特性,这也是这篇文章要将分割方向的loss引入到点的回归上来的原因。表示平滑因子,越大mask的边界越平滑,越小mask的边界越锐利。文章的方法算作是在原本向量化车道线预测的基础上添加的额外损失,它将预测向量和GT向量栅格化为mask图像(栅格化的过程可导),并借用分割领域中的dice loss计算与GT的差异,也就是下图所示的情况。原创 2023-12-12 23:23:56 · 1181 阅读 · 0 评论 -
MachMap:End-to-End Vectorized Solution for Compact HD-Map Construction
为了兼容不同车道线的朝向,环形车道线的起终点等情况,针对性设计了permute-equal的匹配逻辑,这样的逻辑真的是太麻烦了。对于车道线的描述使用固定点数的方式,这样就使得对于一些车道线细节把握不到位,就是原本的均匀采样没有采样到对应区域的问题。,但是图像能感知到的范围肯定是大于它的,那么由于文章的算法是引入了时序的,那就会导致真值在不同时刻下对应不一致的情况。那么对于一个路口的场景其中的车道线对应的真值就被描绘成了下面中间图的结果了,但是车道线的方向不得增加一个单独的预测来处理?文章设置的感知范围为。原创 2023-12-12 00:45:41 · 1168 阅读 · 0 评论 -
借助SD地图的BEV静态感知
还有一个方案是使用辅助信息,如SD地图,SD地图(standard definition map)是一种较为廉价和覆盖范围广的辅助信息,并且其也是相对置信的,则可以考虑将它与传感器感知算法结合,得到更加鲁棒的感知方案,因而这里对最近看到的几篇SD地图结合方案进行梳理。核心在KEA模块的下面,使用一个对方向信息敏感的卷积处理地图数据,再通过一个定位网络输出地图需要的旋转角度和平移量,并完成网格采样以此实现特征对齐。这个工作是在BEV空间去做SD地图和传感器数据的融合的。原创 2023-12-03 15:12:32 · 3294 阅读 · 2 评论 -
ScalableMap:Scalable Map Learning for Online Long-Range Vectorized HD Map Construction
因此文章在元素解码阶段设计了粗糙到精细的预测过程,称为HSMR,而对地面元素的建模就是参考了MapTR的那套。另外对于BEV特征构建选择了两种方式:transformer和IPM投影的组合方式,这样可以有效兼顾BEV图下每个grid的离散特征和图像域中目标的连续信息。前一个针对每个BEV下的grid去图像中抓取信息,后一个通过MLP从图像中获取连续且稠密的信息,同时还在后一个中添加分割任务,用以增加对环境的感知能力。那么在流转到下一层的时候多出来的顶点是怎么产生的呢?文章给出的方案是:插值。原创 2023-11-06 00:03:38 · 268 阅读 · 0 评论 -
StreamMapNet:Streaming Mapping Network for Vectorized Online HD Map Construction
整体上文章的方法是基于MapTR的(参考了它的车道线回归和匹配机制),主要的工作是使用多个query-point去做deformable attention,以及增加时序上的信息融合,算是一些trick的叠加,当作一些trick效果的验证就好。在原本的deformable attention中只有一个中心,但是这样的信息抓取方式是不适合那些空间跨度比较大的情况的,如车道线,则应该对于每个query point去做deformable信息抓取,也就是下图中的这样。原创 2023-11-05 22:28:34 · 823 阅读 · 0 评论 -
PivotNet:Vectorized Pivot Learning for End-to-end HD Map Construction
注意由于每条车道线中关键点的位置是不一致的,则使用share方式构建的point-query会存在一定歧义(也就是文中说的Hierarchical Query),这种share方式构建的index-dependent,而对于动态预测车道线关键点则需要index-independent。在MapTR系列的算法中将单个车道线建模为固定数量的有序点集(对应下图Evenly-based),这样的方式对于普通道路场景具备一定适应性。在初始的时候使用一堆点的方式构建车道线query,它的维度是。原创 2023-11-05 20:32:14 · 752 阅读 · 2 评论 -
SparseBEV:High-Performance Sparse 3D Object Detection from Multi-Camera Videos
在Deformable Attention中已经存在基于query的采样offset预测,但是它与目标的实际大小不相关,完全由参与预测的MLP决定。则对于每个query这里分别预测相对物体长宽高的offset,从而使得offset的生成更加符合目标的空间实际,这是对offset生成部分的改动。确定offset生成方式之后之前需要对齐不同时序下的特征,自然需要依据自身pose变化对特征进行变换,并且对于场景中的运动目标还需要使用速度进行补偿。原创 2023-10-11 00:47:46 · 1521 阅读 · 0 评论 -
LATR:3D Lane Detection from Monocular Images with Transformer
这里的位置编码是首先在3D空间中进行采样(也就是文章定义的3D地平面),之后通过相机内外参数投影到图像中,以此来作为对应图像位置处的3D位置来源。则在原本不准确的3D平面上就可以通过自适应回归的方式优化3D地平面,由此实现特征3D位置编码的优化,地平面的约束使用过车道线上的点投影建立起来的,也就是使得下图中的绿色平面与红色的车道线接近。对于图像特征使用3D信息嵌入的位置编码,只不过这个位置编码是在给定一个的初始化基础上修正而来的,也就是说在transformer解码的过程中这个位置编码的值是动态的。原创 2023-10-10 00:12:24 · 1438 阅读 · 0 评论 -
DMCP:Multi-Camera Collaborative Depth Prediction via Consistent Structure Estimation
这篇文章对于多视图自监督深度估计在不同相机下的深度表达构建一致性约束,其建立约束的信息来自于相邻相机之间的视角重叠区域,如下图所示依据这些区域可以在loss端通过不同相机之间标定外参构建不同视角之间的深度约束关系,也就是周围相机预测出的深度经过投影之后应该和目的相机的深度值差异最小化。除了在loss层面上对不同视角下深度构建约束之外,还在特征表达的维度在channel层次上对初次深度估计结果进行加权,使得深度表达具备更强表达能力,也使得可以通过迭代优化加权系数的方式级连优化深度估计结果。原创 2023-08-09 00:23:34 · 262 阅读 · 0 评论 -
EGA-Depth:Efficient Guided Attention for Self-Supervised Multi-Camera Depth Estimation
算法中对使用self-attention做多视图特征聚合,这样一个是计算开销和显存占用比较大,二个每个单独视图需要从众多视图中寻找有用信息会减慢网络收敛速度。对此依据多视图系统中成像特点,这篇文章将当前视图只与左右俩视图(分别对应左右视图的与当前视图相关的一部分)做attention操作,从而极大减少计算和显存开销。节省了这些开销之外就可以尝试增加分辨率、增加多桢输入(从结果上看涨点不明显)这些trick来提升自监督深度估计的性能了。原创 2023-07-31 17:16:28 · 231 阅读 · 0 评论 -
SurroundDepth:Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation
在这篇文章中提出一种多视图融合实现自监督深度估计的方法。使用backbone实现多视图特征抽取之后将这些特征通过multi-scale的self-attention融合,使得多视图中具有视角交叉的图像信息得到交换和融合,特别地在融合过程中借鉴了多尺度和skip-connect的策略用于优化图像特征。原创 2023-07-30 01:37:16 · 280 阅读 · 0 评论 -
FSM:Full Surround Monodepth from Multiple Cameras
深度估计任务作为基础环境感知任务,在基础上构建的3D感知才能更加准确,并且泛化能力更强。单目的自监督深度估计已经有MonoDepth、ManyDepth这些经典深度估计模型了,而这篇文章是对多目自监督深度估计进行探索,在单目自监督深度估计基础上利用多目相机之间相互约束构建了多目自监督深度估计方法。原创 2023-07-29 19:39:24 · 1467 阅读 · 0 评论 -
StreamPETR:Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
介绍:在BEV感知中时序信息融合会为下游感知任务带来不小性能提升,但是在单帧基础上引入时序信息必然会带来额外开销,因而迫切需要一种高性能且代价小的融合方案。现有的一些时序融合策略多是在BEV特征空间维度上完成的,并且对于一些DETR-based方案本身就没有显式构建BEV特征,如PETR,则BEV特征空间上的时序融合方法就不适用了。原创 2023-07-10 00:56:22 · 1789 阅读 · 0 评论 -
DG-BEV:Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View
介绍:BEV算法部署过程中会遇到camera的变化,这个变化包含了相机内外参数,其中内参决定了成像物体在图像中的大小,外参决定了物体成像的位置。对此文章提出了一种内外参数对齐的方案(工作是以BEVDepth为 基准),对于内参导致的物体大小问题采用深度补偿的方式解决,对于外参数导致的成像位置变化采用单应矩阵映射的解决,同时为了使得图像特征对于相机内参鲁棒,设计了一个Domain Classifier去提升生成特征的泛化能力。不过从实际效果上看最后一个改进效果相比前面两种不是那么明显。原创 2023-06-28 00:51:17 · 551 阅读 · 0 评论 -
BEVSimDet:Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection
介绍:在模型实际部署过程中由于实际传感器缺失、计算资源限制等因素,导致对实际部署的模型裁剪,自然性能也会存在下降。对这样的情况一般会采取知识蒸馏的方式实现性能弥补,对于常见intra-modal、cross-modal、multi-modal的蒸馏方式,它们需要source和target中输入的传感器数量保持一致,这样才能实现蒸馏。具体到自动驾驶场景中激光雷达并不是在所有车型,那么对于没有激光雷达的车如何提升感知性能?对此文章提出在图像特征上添加一个模拟的Lidar特征。原创 2023-06-27 23:52:33 · 287 阅读 · 0 评论 -
UniDistill:A Universal Cross-Modality Knowledge Distillation Framework for 3D Object Detection...
介绍:这篇文章为BEV下3D目标检测领域提出了一种知识蒸馏方案,无论是Lidar还是Camera作为数据输入,它们均可以在BEV空间下实现特征对齐,则可以不用考虑前级网络由于不同模态输入而导致特征不匹配问题。对于刚完成到BEV视角转换的特征称为low-level特征,经过BEV编码器之后得到high-level特征,之后检测任务才能在high-level上得到感知结果。原创 2023-06-27 00:20:40 · 453 阅读 · 0 评论 -
An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations ...——论文笔记
介绍:transformer相关工作在车道线检测领域已经被证实是可行的,只不过大部分情况其耗时比较多,这是由于多数时候还构建了bev grid query去获取bev特征,而PETR这个方法直接在图像特征上加3D位置编码就快很多了。原创 2023-06-24 11:46:33 · 459 阅读 · 1 评论 -
BeMapNet:End-to-End Vectorized HD-map Construction with Piecewise Be ́zier Curve——论文笔记
介绍:对于高精地图中关于地面车道线相关检测这篇文章提出了一种基于贝塞尔曲线的多片段检测方式,也就是将一条车道线划分称为不同的片段,并对这些片段使用贝塞尔曲线拟合,这样可以减少由于曲线本身复杂而导致单条贝塞尔曲线的学习难度,并且表达的曲线更加准确。同时为了提升地面车道元素的感知性能,在感知头部分还提出了Point-Curve-Region Loss,它由多种loss联合组成用于在多个维度下帮助网络收敛。同时还在bev维度上添加语义分割分支和实例分割分支用于帮助网络收敛。原创 2023-06-23 18:33:44 · 1484 阅读 · 2 评论 -
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记
介绍:在仓库RoboBEV中总结了现有的一些bev感知算法在不同输入情况下的鲁棒性,在这些感知算法中PolarFormer拥有较为不错的泛化性能。这个算法的思想是将之前由直角坐标系栅格化构建bev网格,转换到由极坐标构建栅格化bev网格,这样的bev特征构建方法其实是符合相机成像过程的,在W维度切分的单个竖向特征代表的便是由光心和两条射线组成的扇形区域。原创 2023-06-22 15:30:17 · 1231 阅读 · 1 评论 -
相机去畸变
在做图像感知工作过程中会遇到需要处理相机畸变的情况,如SLAM、3D重建等,则需要了解一些常见相机模型的成像过程,以及依据成像过程实现去除相机成像的畸变。原创 2023-06-20 01:11:53 · 2938 阅读 · 1 评论 -
DualCross:Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception——论文笔记
介绍:去年(2022年)大家都在卷各式各样的view-transfer,到了今年就沉寂了不少,鲜有新的view-transfer提出,也有一些对于行业更加工程实际的paper出来了。这篇文章便是通过从domain-adaption和distillation技术角度去缓解BEV感知方案部署的痛点问题。当训练时的数据分布与实际部署时的训练分布不一致,如白天与黑夜或晴天与雨天,或是训练时使用的传感器数量与部署时使用的数量不一致,便会存在性能下降的情况。原创 2023-05-24 23:49:32 · 727 阅读 · 7 评论 -
BEVFormerV2:Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervisi
介绍:FCOS使用2D图像作为感知输入,在经过trick调整和优化之后也能在3D目标检测任务中获得不错的效果,也就说明了只使用2D图像对于3D目标也是具备感知,这一点是这篇文章便是以此关键点出发构造BEV检测算法。原创 2023-04-01 14:41:19 · 415 阅读 · 0 评论 -
Lane Graph as Path:Continuity-preserving Path-wise Modeling for Online Lane Graph Construction
介绍:在车道拓扑结构建模描述中经常使用pixel-wise(基于分割)或piece-wise(小段车道检测并连接)方式,但是这样的方式并不是将一个lane完整建模和优化的,因而当某些细节单元上出现错误的时候就会对整条lane的感知产生影响。基于如此观察文章将lane描述为一个带方向的path,并完整预测path的几何结构,从而得到较为完成的path描述,一个场景的道路graph信息便是通过这些path组合起来的。原创 2023-03-25 15:57:40 · 952 阅读 · 0 评论 -
Fast-BEV:A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记
介绍:这篇文章提供了一种可实际部署的BEV感知方案,能够在当今车端主流计算单元上(Nvidia Orin)实现不错的帧率。从camera到BEV的转换思想来自于M2BEV,但是对这个转换方法中使用查找表和映射方法改进,使得整体视角转换效率得到提升。同时,在一些细节上增加了多帧数据融合、图像编码器使用FPN优化特征、camera和BEV下的数据增广等操作提升网络性能。原创 2023-02-06 01:10:42 · 842 阅读 · 1 评论 -
TiG-BEV:Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning——论文笔记
介绍:由于相机的BEV感知算法缺少或较难预测准确深度信息,导致下游任务性能掉点。对此,文章提出了一种基于目标内在几何信息(TIG:Target Inner-Geometry)的知识蒸馏信息约束载体,其可以有效将Lidar准确的3D感知信息迁移给图像,进而实现camera下性能提升。文章使用的是基于LSS的方法,其知识迁移的主要是在BEV特征图上完成的,也就是提出了一种基于object(检测目标)inter-keypoints和inter-channel的知识迁移。原创 2023-02-05 00:39:17 · 446 阅读 · 1 评论 -
BEVDistill:Cross-Modal BEV Distillation for Multi-View 3D Object Detection——论文笔记
介绍:基于相机的BEV感知算法可以从周视图像中获取丰富语义信息,但是缺乏深度信息的,对此一些方法中通过深度估计的形式对这部分缺乏的深度信息进行补充,从而实现网络性能的提升。使用深度估计需要添加对应网络模块和标签数据,也会带来不少的工作量。对此,可以从知识蒸馏的角度从Lidar点云数据中去弥补图像中缺失的信息,这篇文章中检测网络的角度探讨了3D检测下的知识蒸馏(核心在于怎么实现不同模态数据的信息蒸馏),给出从BEV特征dense蒸馏和实例蒸馏的方法。原创 2023-01-31 00:07:26 · 488 阅读 · 0 评论