
多模态融合、BEV感知、占用网络
文章平均质量分 95
主要分析前沿技术,包括多模态融合、BEV感知和占用网络的模型算法,同时分享具体应用示例、代码、数据集等。
一颗小树x
计算机专业,某车企的算法工程师;曾获华为云-云享专家,华为云-云创 首席贡献官,阿里云-专家博主等荣誉。
展开
-
【BEV感知】BEVFormer 融合多视角图形的空间特征和时序特征 ECCV 2022
本文分享BEV感知方案中,具有代表性的方法:BEVFormer。基本思想:使用可学习的查询Queries表示BEV特征查找图像中的空间特征和先前BEV地图中的时间特征。它基于Deformable Attention实现了一种融合多视角相机空间特征和时序特征的端到端框架,适用于多种自动驾驶感知任务。主要由3个关键模块组成:BEV Queries Q:用于查询得到BEV特征图Spatial Cross-Attention:用于融合多视角空间特征。原创 2023-12-17 23:12:08 · 5594 阅读 · 2 评论 -
【多传感器融合】BEVFusion: 多任务-多传感器融合框架 ICRA 2023
BEVFusion ICRA 2023| MIT提出的。它是一个为多任务、多传感器融合提供了一个高效、通用且任务可拓展的框架。通过在共享的BEV空间中统一多模态特征,并保持几何结构和语义密度,它支持广泛的3D感知任务(检测、分割、预测等)原创 2023-12-03 20:38:04 · 1228 阅读 · 0 评论 -
【多模态融合】MetaBEV 解决传感器故障 3D检测、BEV分割任务
本文介绍多模态融合中,如何解决传感器故障问题;基于激光雷达和相机,融合为BEV特征,实现3D检测和BEV分割,提高系统容错性和稳定性。会讲解论文整体思路、模型框架、论文核心点、损失函数、实验与测试效果等。原创 2024-04-06 19:42:09 · 2540 阅读 · 0 评论 -
【占用网络】VoxFormer 基于视觉的3D语义场景方案 CVPR 2023
本文分享“占用网络”方案中,来自CVPR2023的VoxFormer,它基于视觉实现3D语义场景补全。使用Deformable Attention从图像数据中,预测三维空间中的体素占用情况和类别信息。VoxFromer是一个两阶段的框架第一个阶段:预测每个像素的深度值,将像素投影三维空间中,2D图像到3D空间的思想。然后预测每个三维网格是否被占用,生成稀疏体素特征。最后选择其中是“占用”的体素作为“体素查询特征”进入第二阶段。这个阶段只预测占用情况,选择一些值得分析的体素。第二个阶段。原创 2024-01-04 00:43:57 · 2510 阅读 · 0 评论 -
【占用网络】OccNet: Scene as Occupancy 适用于检测、分割和规划任务 ICCV2023
本文分享“占用网络”方案中,具有代表性的方法:OccNet。它以多视角视觉为核心,首先生成BEV特征,然后通过级联结构和时间体素解码器重建生成3D占用特征。构建一个通用的“3D占用编码特征”,用以表示3D物理世界。这样的特征描述可以应用于广泛的自动驾驶任务,包括检测、分割和规划。原创 2023-12-29 00:44:48 · 2640 阅读 · 0 评论 -
【多模态融合】SuperFusion 激光雷达与相机多层次融合 远距离高清地图预测 ICRA 2024
本文介绍激光雷达与相机进行多层次融合,包括数据级融合、特征级融合和BEV级融合。融合后的BEV特征可以支持不同的任务头,包括语义分割、实例编码和方向预测,最后进行后处理生成高清地图预测,它是来自ICRA 2024的。会讲解论文整体思路、模型框架、论文核心点、损失函数、实验与测试效果等。原创 2024-03-26 01:45:35 · 7921 阅读 · 0 评论 -
【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。会讲解论文整体思路、输入数据分析、模型框架、设计理念、损失函数等。原创 2024-03-03 13:13:29 · 2538 阅读 · 0 评论 -
【多传感器融合】BEVFusion: 激光雷达和视觉融合框架 NeurIPS 2022
BEVFusion其实有两篇,NeurIPS 2022 | 北大&阿里提出。另一篇是ICRA 2023 | MIT提出。本文先分享阿里那篇,下面简单总结一下两篇论文。重点: 介绍了一个融合摄像头和激光雷达数据的框架,用于3D对象检测。其创新之处在于使摄像头流程不依赖激光雷达输入,解决了现有方法过度依赖激光雷达数据的局限性。方法: BEVFusion框架使用两个独立流程来处理激光雷达和摄像头数据然后在鸟瞰视图(BEV)层面进行融合。这种方法即使在激光雷达功能失常,或摄像头失常的情况下也保证了稳健性。性能。原创 2023-12-01 01:37:23 · 8246 阅读 · 1 评论 -
未来之路:大模型技术在自动驾驶的应用与影响
本文深入探讨了大模型技术在自动驾驶领域的应用和影响。文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制。文章还探讨了大模型在任务适配性、模型变革和应用前景方面的潜力。在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策。原创 2023-11-12 23:46:28 · 3420 阅读 · 1 评论 -
【BEV感知 LSS方案】Lift-Splat-Shoot 论文精读与代码实现
LSS全称是Lift-Splat-Shoot,它先从车辆周围的多个摄像头拍摄到的图像进行特征提取,在特征图中估计出每个点的深度然后把这些点“提升”到3D空间中。接着,这些3D信息被放置到一个网格上最后将这些信息“拍扁”到一个平面视图上,形成BEV特征图。Lift,是提升的意思,2D → 3D特征转换模块,将二维图像特征生成3D特征,涉及到深度估计。Splat,是展开的意思,3D → BEV特征编码模块,把3D特征“拍扁”得到BEV特征图。Shooting,是指在BEV特征图上进行相关任务操作。原创 2023-12-01 22:47:09 · 867 阅读 · 0 评论 -
【BEV感知 EA-LSS 方案】Edge-aware Lift-splat-shot
本文分享LSS方案的改进方案——EA-LSS,它解决了“深度跳变”问题,提出了一个新框架Edge-aware Lift-splat-shot。适用于“多视图转BEV”,可以代替原来的LSS模块,并有效地提高了检测精度,而推理时间的增加很少。在nuScenes测试集上验证,纯相机模型或多模态模型,EA-LSS都是有效的,并达到了Top1排名(截至本文时间2023-12)。原创 2023-12-11 22:18:04 · 752 阅读 · 0 评论 -
【BEV视图变换】BEVPoolv2 原理、CUDA代码实现
本文介绍BEVPoolv2,会介绍原理和CUDA代码实现。从工程优化的角度出发,改善BEV模型的视图转换。通过省略视锥特征的计算、存储和预处理来实现,使其在计算和存储方面不再受到巨大的负担。输入使用640 ×1600的分辨率,它可以在 0.82 毫秒内处理,这是先前最快实现的 15.1 倍。原创 2024-03-05 00:41:50 · 4779 阅读 · 0 评论 -
【占用网络】SurroundOcc:基于环视相机实现3D语义占用预测 ICCV 2023
本文分享“占用网络”方案中,来自ICCV 2023的SurroundOcc,它基于环视相机实现3D语义占用预测。使用空间交叉注意力将多相机图像信息提升到3D体素特征,即3D体素Query到2D图像中查询融合特征的思想。然后使用3D卷积逐步对体素特征进行上采样,并在多个层次特征图上进行损失监督。同时,SurroundOcc介绍了如何通过多帧点云,构建稠密的3D语义占用栅格数据集,这部分也是挺重要的。清华大学云盘。原创 2024-01-10 23:57:01 · 1819 阅读 · 0 评论 -
【占用网络】FlashOcc:基于2D卷积的占用预测模型
FlashOcc是一个它只需2D卷积就能实现“占用预测模型”,具有快速、节约内存、易部署的特点。它首先采用2D卷积提取图形信息,生成BEV特征。然后通过通道到高度变换,将BEV特征提升到3D空间特征。对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。原创 2024-01-17 09:18:17 · 822 阅读 · 0 评论 -
【占用网络】FlashOcc:快速、易部署的占用预测模型
FlashOcc是一个快速、节约内容、易部署的占用预测模型。它首先采用2D卷积提取图形信息生成BEV特征。然后通过通道到高度变换(channel-to-height transformation),将BEV特征提升到3D空间特征。对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。原创 2024-01-14 18:12:24 · 687 阅读 · 0 评论