自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 【Distillation-based】Segment Any Point Cloud Sequences by Distilling Vision Foundation Models

主题: 这篇论文提出了一种新的框架Seal,专注于利用视觉基础模型 (VFMs) 分割汽车点云序列。特点可扩展性(Scalability): 将 VFMs 直接蒸馏到点云中,无需在 2D 或 3D 预训练阶段进行标注。一致性(Consistency): 在相机到 LiDAR 和点到分段的正则化阶段,增强了空间和时间关系。通用性(Generalizability): 支持各种点云任务(真实/合成、低/高分辨率、大/小规模、清晰/损坏的数据集)。实验结果在nuScenes 数据集。

2025-01-14 21:14:38 551

原创 【WorldModel-based】MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving

摘要概述。

2025-01-14 20:20:08 1001

原创 【WorldModel-based】UniWorld: Autonomous Driving Pre-training via World Models

灵感来源:基于Alberto Elfes在1989年提出的占据网格(Occupancy Grid)作为机器人的世界模型。提出的模型:开发了一种时空世界模型,称为UniWorld,让机器人感知周围环境并预测其他参与者的未来行为。功能初始阶段预测4D几何占据网格(4D Geometric Occupancy)作为基础世界模型。对下游任务进行微调。可以估算世界状态的缺失信息并预测未来可能的状态。通过图像和LiDAR数据对模型进行无标签预训练,构建基础模型。输入数据LiDAR帧数据。

2025-01-14 20:03:58 648

原创 【Rendering-based】OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments

研究问题:占据预测(occupancy prediction)是为了重建周围环境的3D结构,常用于自动驾驶中的规划和导航。然而,目前的方法大多依赖于LiDAR点云生成的占据真值(occupancy ground truth),这在基于视觉的系统中不可用。贡献:本文提出了一种名为OccNeRF引入了参数化重建占据场的策略,并重新组织采样方法以适配摄像头的无限视野。使用多帧光度一致性(multi-frame photometric consistency)监督相机深度图的生成。

2025-01-14 19:34:00 881

原创 【Rendering-based】PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds

背景:在3D领域(如自动驾驶)中,预训练非常重要。然而,点云注释的成本高且具有挑战性。挑战点云数据的不完整性:LiDAR捕获的点云仅为部分点,导致训练阶段的模糊性。图像可以提供更全面的信息和语义,但将图像引入点云预训练会带来遮挡和点与像素错配的问题。

2025-01-14 19:23:09 565

原创 【Rendering-based】UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

在自动驾驶领域,有效特征学习的重要性得到了广泛认可。尽管传统的3D自监督预训练方法取得了广泛成功,但大多数方法仍遵循最初为2D图像设计的思路。在本文中,我们提出了UniPAD,一种应用3D体积可微渲染的全新自监督学习范式。UniPAD隐式编码3D空间,促进了连续3D形状结构和其2D投影复杂外观特征的重建。该方法的灵活性使其能够无缝集成到2D和3D框架中,从而实现对场景更全面的理解。我们通过在各种3D感知任务上的实验,展示了UniPAD的可行性和有效性。

2025-01-14 15:54:40 579

原创 【Reconstruction-based】MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds

MAELi 是一种针对大规模 LiDAR 点云的自监督学习框架,旨在减少对3D注释的依赖并提升在自动驾驶等场景中的表现。

2025-01-14 15:32:33 999

原创 【Reconstruction-based】BEV-MAE: Bird‘s Eye View Masked Autoencoders for Point Cloud Pre-training in A

现有方法的不足当前基于 LiDAR 的 3D 目标检测方法大多依赖从零开始的训练(training-from-scratch)范式。该范式依赖于大量标注数据,但收集这些数据既昂贵又耗时。解决方案的需求为了减少对大量标注数据的依赖,自监督预训练成为一种有效且理想的替代方案。BEV-MAE 的创新点在于结合鸟瞰图视角的掩码策略和点密度预测,显著提升了自监督预训练在自动驾驶场景中的效果。它既有效减少了对标注数据的依赖,又在关键性能指标上超越了最先进的技术。

2025-01-14 15:03:16 571

原创 【Reconstruction-based】GeoMAE: Masked Geometric Target Prediction for Self-supervised Point Cloud Pre

这篇论文的核心目标是解决一个关键问题:在点云的自监督学习中,应该采用何种信号来有效地学习点云特征,而无需依赖人工标注?与传统方法相比,论文提出了一种新颖的点云表示学习框架。本文提出的GeoMAE框架通过几何特征的多任务预测显著提升了点云的表示能力,为下游任务(如目标检测、分割、多目标跟踪)提供了强大的支持,验证了其有效性和优越性。灵感来源受几何建模和计算几何技术启发,设计了一个专为点云服务的自监督学习框架。核心设计提出了几何特征预测任务,涵盖:点统计特征。表面属性(如质心、法向量和曲率)。

2025-01-14 14:42:05 768

原创 【Reconstruction-based】Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds

遮罩(mask-based)预训练在图像和语言的自监督学习中取得了巨大成功,尤其是在不需要人工标注监督的情况下。然而,这种方法尚未被应用于大规模点云数据的预训练,尽管点云具有冗余的空间信息。Voxel-MAE方法的核心思想:将点云转化为体素(voxel)表示,并判断每个体素中是否包含点云数据(即体素二分类任务)。不同于2D MAE中的像素重建任务,Voxel-MAE采用体素分类方法,显式地学习3D目标检测中重要的特征。为适应大规模点云数据的稀疏性,设计了基于范围感知的掩码策略。网络特点。

2025-01-14 14:26:29 579

原创 【Reconstruction-based】GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling for Mul

论文背景:多视角相机的3D检测是计算机视觉中的一个挑战性问题。现有方法尝试通过预训练的LiDAR检测模型将知识转移到基于相机的系统。然而,LiDAR BEV(鸟瞰图)特征和相机BEV特征之间存在域间差异(domain gap),因为它们来源不同且特征特性不同。提出,用于改进多视角相机3D检测。利用LiDAR模型的知识进行预训练-微调,通过GeoMIM完成特征转移。GeoMIM设计了一种多相机视觉Transformer,使用Cross-View Attention(CVA)模块。

2025-01-14 13:54:09 623

原创 【论文学习】SegContrast: 3D Point Cloud Feature Representation Learning through Self-supervised Segment Di

论文背景与问题:语义场景解释的重要性在自动驾驶等复杂场景中,语义场景解释是关键技术。当前的深度学习方法在这个任务中表现良好,但对大量的标注数据依赖很大,而这些标注数据难以生成且可能不足以覆盖所有相关类别。自监督学习的潜力自监督表示学习可以通过从未标注数据中学习描述性特征来减少对标注数据的需求。研究目标论文聚焦于三维点云数据的特征表示学习,特别是在自动驾驶背景下。核心贡献:提出了一种新的对比学习方法目标是学习场景的结构上下文(structural context)。

2025-01-13 21:05:20 821

原创 【论文学习】ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object Detection

现有的无监督点云预训练方法主要聚焦于场景级别或点/体素级别的实例区分。场景级方法:易于丢失对道路物体的重要局部细节。点/体素级方法:由于感受野有限,难以感知大型物体或上下文环境。解决方案:ProposalContrast为了解决上述问题,提出了一种新的无监督点云预训练框架,名为。目标:通过对比区域提案学习鲁棒的3D表示。核心方法采样点云中的区域提案集。在每个提案内建模几何点关系,生成富有表现力的提案表示。优化提案的类内紧致性和类间分离性,提升提案表示的区分能力。

2025-01-13 20:44:42 984

原创 【论文学习】Spatiotemporal Self-supervised Learning for Point Clouds in the Wild

自监督学习(SSL)有助于减少对人工标注数据的依赖,尤其是在标注复杂数据(如点云)时。当前的方法多使用对比学习策略,通过对单帧点云进行各种增强来定义正样本对。现有方法的不足:未充分利用 LiDAR 数据的时间特性。主要关注单帧数据,忽略了点云随时间的动态变化。

2025-01-13 19:37:49 786

原创 【论文学习】SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for Spatial-Aware Visual

现状问题:预训练在计算机视觉任务中非常普遍,但大多数方法针对的是2D的RGB图像领域,而在三维相关任务中,这种方法因为忽视空间信息表现不佳。研究目标:克服二维图像平面和三维空间之间的差异,学习能够描述三维空间且更适合三维任务的空间感知视觉表示。提出了一种新的预训练方法(SimIPU),首次探索室外多模态数据的对比学习策略。提出了一个多模态对比学习框架,包括单模态空间感知模块和跨模态特征交互模块。在3D目标检测、单目深度估计等3D任务上显著优于现有预训练方法。

2025-01-13 17:56:43 866

原创 【论文学习】AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud Dataset

自动驾驶(Autonomous Driving,AD)社区的长期目标是开发能够从大规模点云数据集中学习的感知模型,以获取可以应用于不同任务和基准测试的统一表示。现有的研究主要集中于自监督预训练,在同一个数据集上进行预训练和微调。然而,这种方法在性能可扩展性和跨数据集应用方面存在局限性。本文提供了一个新的思路来改进自动驾驶感知模型的预训练,增强了模型的跨任务和跨数据集的适应能力。项目相关资源可以在项目页面中访问。数据准备。

2025-01-13 17:17:43 980

原创 【学习记录】Self-Supervised Pretraining for Point Cloud Object Detection in Autonomous Driving

目标:自动驾驶通过更安全高效的方式实现交通运输,但一个主要的挑战是理解复杂的驾驶环境。现状:现代感知系统通常依赖神经网络,以数据驱动的方式处理自动驾驶场景。然而,这种方法需要大量标注数据,获取这些数据成本高昂。无监督预训练 (Unsupervised Pretraining)输入点云数据通过两组随机的旋转、平移和缩放参数生成两个不同的变换视图(Transformed Point Cloud 1 和 Transformed Point Cloud 2)。

2025-01-13 16:37:30 887

原创 ProposalContrast学习

摘要现有的无监督点云预训练方法通常局限于场景级别或点/体素级别场景级方法:倾向于忽略局部细节,而这些细节对识别道路目标至关重要。点/体素级方法:由于感受野有限,无法感知大型目标或复杂的上下文环境。是一种新型的无监督点云预训练框架,专为3D目标检测而设计。区域级别表示的引入:相比场景级或点级方法,区域级别表示更适合3D目标检测任务。区域对比学习:通过对点云中抽取的大量区域提议(Region Proposals)进行对比学习,生成鲁棒的3D特征表示。同时,建模每个提议中的几何点关系。

2025-01-13 15:12:04 277

原创 BEVContrast

论文解析

2025-01-10 16:15:35 973

原创 自动驾驶领域的基础模型综述

论文摘要解读这篇论文讨论了**大规模基础模型(Foundation Models)在人工智能(AI)领域的革命性影响,尤其是在自动驾驶(Autonomous Driving)中的应用,重点研究了视觉基础模型(Vision Foundation Models, VFMs)**的开发。核心内容总结背景大型基础模型(如 SAM、DALL-E2、GPT-4)因其在多任务中的适应性和高效性,正成为广泛AI应用的重要基石。自动驾驶是AI的重要应用领域之一,但面临缺乏专用视觉基础模型的挑战。主要挑战。

2025-01-06 22:01:19 938 1

原创 DriveLM: Driving with Graph Visual Question Answering学习记录

这套注释流程结合了真实场景和仿真环境的优势,通过规则算法和人工审核,确保生成的问答数据高质量且多样性。两种方法相辅相成,为GVQA任务提供了全面的数据支持。这部分明确了DriveLM项目的任务设定、数据支持和评价方法,并提供了研究框架的全景图。这一部分系统地定义了GVQA任务的核心——通过图结构建模问答对及其逻辑依赖,涵盖从感知到规划的完整推理过程。同时,为行为和运动提供了具体的数学描述,为后续建模奠定了基础。

2024-12-11 20:36:48 876 1

原创 论文总结--Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

SFD框架的核心思想是通过深度完成生成的伪点云(pseudo point clouds)来补充稀疏LiDAR点云的缺失信息。

2024-11-12 16:43:48 427

原创 论文总结--Behind the Curtain: Learning Occluded Shapes for 3D Object Detection

BtcDet(Behind the Curtain Detector)旨在解决3D物体检测中的“形状缺失”问题,这种问题通常由外部遮挡、信号丢失和自我遮挡引起。BtcDet通过预测物体形状的占据概率来处理这些遮挡区域,从而提高检测的准确性。

2024-11-12 16:42:56 380

原创 论文总结--Improving 3D Object Detection with Channel-wise Transformer

CT3D方法的关键特点是利用一个自定义的Transformer架构,通过通道级的自注意力机制来增强提议的特征表示,并精炼3D物体检测任务中的候选框。

2024-11-12 16:42:17 799

原创 论文总结--Voxel Transformer for 3D Object Detection

Voxel Transformer (VoTr) 是一个基于Transformer的3D检测框架,可以通过稀疏体素模块和子流形体素模块处理稀疏点云数据。其核心目标是通过自注意力机制建立体素之间的长程关系,从而提高检测性能。

2024-11-12 16:40:20 515

原创 论文总结--SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud

SE-SSD框架包括一个教师(Teacher)SSD和一个学生(Student)SSD。教师模型生成较为精确的预测结果,作为软目标来指导学生模型的学习。学生模型则通过形状感知的数据增强和一致性损失来优化,以便更好地从教师模型中蒸馏知识,并最终提升检测性能。

2024-11-12 16:39:30 408

原创 论文总结--Center-based 3D Object Detection and Tracking

CenterPoint: Center-based 3D Object Detection and Tracking 是一种基于中心点表示的3D物体检测与跟踪方法,提出了一种创新的检测框架,旨在通过在LiDAR点云中直接检测和跟踪物体的中心来提高检测效率和准确性。以下是该论文的关键方法总结,特别是其核心模块和公式。CenterPoint采用中心点表示物体,并通过两个阶段进行检测和跟踪:CenterPoint的核心思想是将3D物体表示为点,而不是传统的轴对齐的3D边界框。这样做的优势在于:热图预测:首先生成一

2024-11-12 16:38:31 1043

原创 论文总结--Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection

Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 提出了一个基于体素的2阶段3D物体检测框架,名为 Voxel R-CNN,旨在提高检测效率的同时保持高精度。该方法采用了体素特征提取,并结合了鸟瞰图(BEV)表示和区域提议网络(RPN),在计算速度和准确度之间达到了很好的平衡。以下是该论文中方法部分的总结,特别是关键模块和公式。Voxel R-CNN框架包含以下三个核心模块:Voxel RoI Pooling 是Vox

2024-11-12 16:37:30 519 1

原创 论文总结--PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

PV-RCNN结合了两种主流方法的优点:体素(Voxel)网络和点(Point)网络,以更好地提取3D点云的特征。

2024-11-11 17:17:12 781

原创 论文总结--Structure Aware Single-stage 3D Object Detection from Point Cloud

Structure Aware Single-Stage 3D Object Detection from Point Cloud 提出了一个基于点云的结构感知单阶段3D物体检测方法,旨在提高3D物体检测的定位精度。以下是该论文中的关键方法部分的总结,特别是模块和公式。该方法主要包含以下三个子网络:为了提高检测精度,辅助网络通过两种任务引导骨干网络更好地理解点云的结构信息:这些辅助任务在训练阶段与骨干网络一起优化,经过训练后,辅助网络可以被移除,因此在推理阶段不会增加额外的计算负担。公式1表示了点级特征表示

2024-11-11 17:07:39 554

原创 论文总结--3DSSD: Point-based 3D Single Stage Object Detector

3DSSD 是一种轻量化且高效的基于点的3D单阶段物体检测框架。与现有的基于点的方法不同,3DSSD 通过引入一种创新的采样策略来移除传统方法中的上采样层(FP层)和精细化模块,显著提高了检测速度,并在多个数据集上取得了优异的表现。3DSSD 的框架包含以下几个主要模块:在降采样过程中,使用基于特征距离的采样策略(F-FPS),并结合传统的最远点采样(D-FPS),从而保留更多有代表性的前景点,减少了背景点的影响。这种方法有效地提高了目标检测的性能,并避免了传统采样方法中出现的有用点丢失问题。采样方法的公式

2024-11-11 16:54:50 674

原创 论文总结--PointPillars: Fast Encoders for Object Detection from Point Clouds

PointPillars 是一种用于点云中3D物体检测的快速编码方法,采用了柱状编码方式(pillars),极大地提高了效率,同时保持了较高的准确度。以下是该论文中的方法总结,特别是关键模块和公式。PointPillars 网络由三个主要部分组成:PointPillars 将输入的点云转换为一个伪图像以适应2D卷积网络。具体步骤如下:PointPillars 使用了一个2D卷积骨干网络,结构上包括两部分:PointPillars 使用单阶段检测头来回归3D边界框:PointPillars 使用以下损失函数来

2024-11-11 16:46:37 765

原创 论文总结--PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud

PointRCNN 是一个用于从原始点云中生成3D物体提议并进行检测的模型,分为两个阶段:PointRCNN 的整个框架分为两个阶段:点云分割:该阶段首先通过分割点云,将前景点和背景点分离,利用前景点生成高质量的3D提议。前景点分割:通过学习前景点的特征来进行点云分割,为每个点生成相应的特征向量。公式中,分割损失使用焦点损失来处理前景和背景的类别不平衡:Lfocal(pt)=−αt(1−pt)γlog⁡(pt)L_{\text{focal}}(p_t) = -\alpha_t(1 - p_t)^\gam

2024-11-11 16:40:25 678

原创 论文总结--VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

这篇论文介绍了,一种针对LiDAR点云数据的端到端训练的3D物体检测方法。该方法解决了传统方法中对于点云特征工程的依赖,通过自学习的方式进行特征提取和3D目标检测。

2024-11-11 16:33:03 1062

原创 论文总结--SECOND: Sparsely Embedded Convolutional Detection

这篇论文介绍了(Sparsely Embedded Convolutional Detection)模型,旨在提升基于LiDAR的3D物体检测速度和精度,特别是在自动驾驶等应用中。

2024-11-11 16:25:13 701

原创 论文总结--PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

PointNet++ 是。

2024-11-11 16:19:07 686

原创 论文总结--PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

这篇论文介绍了,一种直接处理三维点云数据的深度学习方法。以下是该论文中关于方法部分的详细总结,重点强调了关键模块和公式。

2024-11-11 16:07:15 851

原创 论文解读PointNet

点云是一种重要的几何数据结构。由于其不规则的格式,大多数研究者将这类数据转换为规则的三维体素网格或图像集合。然而,这使得数据变得不必要地庞大,并引发了一些问题。在本文中,我们设计了一种新型神经网络,能够直接处理点云,并很好地保持输入中点的排列不变性。我们的网络名为PointNet,为从物体分类、部件分割到场景语义解析的各种应用提供了统一的架构。尽管结构简单,PointNet却非常高效且有效。实验表明,它的表现与当前最先进的方法相当,甚至更优。

2024-10-25 21:28:07 1797

原创 数据集Nuscence

稳健的物体检测和跟踪对于自动驾驶车辆技术的部署至关重要。基于图像的基准数据集推动了计算机视觉任务的发展,如环境中物体的检测、跟踪和分割。然而,大多数自动驾驶车辆配备了摄像头和距离传感器的组合,例如激光雷达和雷达。随着基于机器学习的检测和跟踪方法变得越来越普遍,迫切需要在包含距离传感器数据和图像的多模态数据集上训练和评估这些方法。

2024-10-23 19:48:05 538

原创 数据集Waymo

尽管获取代表性的真实世界数据需要大量资源,但研究界对自动驾驶研究的兴趣日益增长。现有自动驾驶数据集在捕捉环境的规模和多样性上存在局限性,而操作区域内和跨区域的泛化能力对技术的整体可行性至关重要,为帮助研究解更好地对接现实中的自动驾驶问题,我们引入了一个全新的大规模、高质量、具有多样性的数据集。我们的新数据集包含1150个场景,每个场景持续20秒,数据由高质量的LiDAR和相机采集,具有良好的同步性和校准度,涵盖了城市和郊区的多种地理环境。

2024-10-16 20:35:26 1931

关于视频抽帧的python代码

对目的地址下的视频文件进行抽帧,写入目标文件夹内 需要在主函数中调整: 1. 视频地址(视频文件) 2. 目标地址(文件夹) 3. 抽取频率(隔多少帧抽取一次) 4. 抽取总数 (负数或0为全视频完全抽取,可自定义数量)

2023-08-01

关于视频抽帧的python代码

对于本地视频进行抽帧 代码中需要更改的部分: 1.目标视频地址(文件) 2.目标存储位置(文件夹) *3.自定义帧数(初始60帧一抽) *4.自定义抽取总帧数 抽取的每一帧按照“数字.jpg”存储,可根据需求自定义

2023-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除