马喽爱打代码-优快云博客

原创 Deepinteraction 深度交互:通过模态交互的3D对象检测

我们首先需要在表示和之间建立像素到像素的对应关系 --> 我们在图像坐标帧c和BEV坐标帧p(Mp→c和Mc→p)之间构建密集映射。

2024-10-20 20:20:29 1126

原创 BEV看的实验部分（如果有错请指定）

优点: 1.计算成本低，测量延迟低。2.充分利用了相机的所有特征 -->可以在更小的mac上面实现相同的性能，将mac的减小转化为可测量的加速。缺点: 1.在同时训练多个任务时，BEVFusion 的效果或性能有所减弱。2.深度估计准确性需要优化我们提出了一种新范例来解决从 2D 图像恢复 3D 信息的不适定逆问题。在这种情况下，输入信号缺乏，模型在没有从数据中学习先验的情况下做出有效预测的基本信息。我们在3D 空间中运行并根据需要使用反向投影来检索图像特征。

2024-10-20 20:18:37 950

原创 PETR: Position Embedding Transformation forMulti-View 3D Object Detection

目标:开发一个基于DETR的简单而优雅的3D目标检测框架。检验是否有可能将2D特征从多视图转换为3d感知特征。以便于对象查询就可以在3D环境下直接更新。1. 保留了原始DETR的端到端的优点2. 避免了复杂的2d到3d的投影和特征采样。

2024-08-09 13:39:51 799

原创 BEVDet论文精度

自动驾驶感知周围环境进行决策，这是视觉感知中最复杂的场景之一。范式创新在解决2D目标检测任务中的成功激励我们寻求一种优雅、可行和可扩展的范式，从根本上推动该领域的性能边界。为此，我们在本文中贡献了BEVDet范式。BEVDet在鸟瞰视图（BEV）中执行3D目标检测，其中大多数目标值被定义，并且可以方便地执行路线规划。我们只是重用现有的模块来构建它的框架，但通过构建一个独占的数据扩充策略和升级非最大抑制策略来实质性地发展它的性能。在实验中，BEVDet在准确性和时间效率之间提供了一个很好的折衷。

2024-08-07 18:34:09 719

原创 DETR3D论文精读

我们的方法从一个稀疏的对象先验集开始，在数据集中共享并端到端学习。比伪点云方法有一个明显的提升伪点云存在一个深度估计不准的问题 DETR3D 一定程度上避免了深度误差不准的影响。2.进行一个补齐，不能随便给一个值，是使用空集进行一个补全，这样我们就得到一个等量集合。3.用fli去做当前Object Queries的预测通过这样的迭代优化的过程(，是一种常用的目标检测后处理技术，用于抑制重叠度较高的检测框以保留最准确的目标框。，是目标检测任务中常用的评价指标，表示检测算法在不同类别上的平均准确率。

2024-08-07 18:33:04 1214

原创 Second代码解读

【代码】Second代码解读。

2024-05-03 14:26:03 592 1

原创 Second:Sparsely Embedded Convolutional Detection

基于体素划分的3D卷积网络可以较好的处理lidar信息，但是有推理速度慢和朝向估计的性能差的不足。我们在基于lidar的目标检测中应用了稀疏卷积，从而大大提高了训练和推理的速度。我们提出了一种改进的稀疏卷积方法，使其运行速度更快。我们提出了一种新的角度损失回归方法，该方法展示了比其他方法更好的方向回归性能。我们为仅限lidar的学习问题引入了一种新的数据增强方法，大大提高了收敛速度和性能。

2024-05-02 13:40:14 1054 1

原创 mit-bevfusion结构代码解读

代码的部分: bevfusion-main\mmdet3d\models\backbones\second.py。代码部分:bevfusion-main\mmdet3d\models\necks\second.py。

2024-04-22 17:00:10 2247 2

原创 Transformer和swin-transformer

首先将图片输入到Patch Partition模块(它的作用就是将一张图像，拿着刀切成一块块的小图像中进行分块，即每4x4相邻的像素为一个Patch，然后在channel方向展平。假设输入的是RGB三通道图片，那么每个patch就有4x4=16个像素，然后每个像素有R、G、B三个值所以展平后是16x3=48，所以通过Patch Partition后图像shape由[H, W, 3]变为[H/4, W/4, 48]。然后在通过层对每个像素的channel数据做线性变换，由48变成C，即图像shape再由。

2024-04-19 11:11:55 2542

原创 mit-bevfusion遇到的问题及其解决办法

检查bevfusion下面的是否存在一个nuscenes文件夹，如果有，需要修该bevfusion/tools/data_converter/nuscenes_converter.py。注释掉 mmdet3d/ops/__init__.py 中的 from .feature_decorator import feature_decorator。和 mmdet3d/models/backbones/__init__.py 中的 from .radar_encoder import *1.下载openmi。

2024-03-31 10:37:24 704 3

原创 BevFusion： A Simple and Robust LiDAR-Camera Fusion Framework(北大阿里的)

重点: 介绍了一个融合摄像头和激光雷达数据的框架，用于3D对象检测。其创新之处在于使摄像头流程不依赖激光雷达输入，解决了现有方法过度依赖激光雷达数据的局限性。方法: BEVFusion框架使用两个独立流程来处理激光雷达和摄像头数据然后在鸟瞰视图(BEV)层面进行融合。这种方法即使在激光雷达功能失常，或摄像头失常的情况下也保证了稳健性。性能。

2024-03-31 10:33:27 1933 1

原创 BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation(mit-麻省理工版本)

上一篇的bevfusion虽然与这篇的名字很相像但是解决的办法不同，上一篇主要是讲让激光相机融合前独立运行，剥离依存关系。本篇主要讲解决融合时BEV特征统一性问题，并对该方式的运行效率做了优化。下面来看具体情况。(1).来自不同传感器的数据以根本不同的方式表达:例如，相机以透视视图捕获数据，而激光雷达以3D视图捕获数据。为了解决这种视图差异，我们必须找到一种适用于多任务多模态特征融合的统一表示。由于二维感知的巨大成功，自然的想法是将激光雷达点云投影到相机上，并用二维cnn处理RGB-D数据。然而，

2024-03-31 10:29:08 2091 1

原创 MMdet3d在s3dis数据集上面完成pointnet++的训练及其可视化

mmdetetion3d的训练分享

2024-02-25 19:35:59 1764 8

2301_77102499的博客