- 博客(16)
- 收藏
- 关注
原创 视觉大模型CLIP论文精读
最先进的计算机视觉系统是针对预测一组固定的、预先确定的对象类别进行训练的。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从关于图像的原始文本中学习是一种很有前景的替代方法,它利用了更广泛的监督来源。我们证明了简单的预训练任务——预测哪段文字与哪张图片相匹配——是一种高效且可扩展的方法,可以从头开始在包含4亿个(图像,文本)对的数据集上学习最先进的图像表示。预训练后,自然语言被用来引用已学习的视觉概念(或描述新的概念),从而实现模型对下游任务的零样本迁移。
2025-03-26 19:07:17
617
原创 【论文精读】Deformable DETR:用于端到端目标检测可变形 Transformer
DETR 最近被提出用于消除目标检测中许多手工设计组件的需求,同时展示了良好的性能。然而,它存在收敛速度慢和特征空间分辨率有限的问题,这主要是由于 Transformer 注意力模块在处理图像特征图时的局限性。为了解决这些问题,我们提出了 Deformable DETR,其注意力模块仅关注参考点周围的少量关键采样点。Deformable DETR 能够在比 DETR 少 10 倍的训练周期内实现更好的性能(尤其是在小目标上)。在 COCO 基准测试上的大量实验验证了我们方法的有效性。
2025-03-11 14:51:09
918
原创 【论文精读】YOLO-World:实时开放词汇目标检测
YOLO系列检测器因其高效性和实用性而被广泛认可。然而,它们依赖于预定义和训练过的物体类别,这限制了其在开放场景中的适用性。为了解决这一限制,我们提出了YOLO-World,这是一种创新的方法,通过视觉-语言建模和在大规模数据集上进行预训练,赋予YOLO开放词汇检测能力。具体来说,我们提出了一个新的可重参数化的视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失函数,以促进视觉和语言信息之间的交互。我们的方法在零样本检测中表现出色,能够高效地检测广泛的目标。
2025-02-24 19:51:15
1043
原创 【论文精读】MapTR:用于在线矢量化高精地图构建的结构化建模与学习
High-definition(HD Map)map为自动驾驶场景提供了丰富且精确的环境信息,是自动驾驶系统规划中不可或缺的基础组件。本文提出了 MapTR,一种用于高效在线矢量化高精地图构建的结构化端到端 Transformer 模型。我们提出了一种统一的排列等价建模方法,即将地图元素建模为一组等价排列的点集,从而准确描述地图元素的形状并稳定学习过程。我们设计了一种层次化的查询嵌入方案,用于灵活编码结构化的地图信息,并通过层次化的二分图匹配进行地图元素学习。
2025-02-23 02:48:25
1427
2
原创 【论文精读】VLM-AD:通过视觉-语言模型监督实现端到端自动驾驶
人类驾驶员依赖常识推理来应对复杂多变的真实世界驾驶场景。现有的端到端(E2E)自动驾驶(AD)模型通常被优化以模仿数据中观察到的驾驶模式,但未能捕捉到背后的推理过程。这种限制使得它们在处理具有挑战性的驾驶场景时能力受限。为了弥合这一差距,我们提出了VLM-AD,一种利用视觉语言模型(VLMs)作为教师来增强训练的方法,通过提供额外的监督信号,将非结构化的推理信息和结构化的动作标签融入训练中。这种监督能够增强模型学习更丰富的特征表示的能力,从而捕捉驾驶模式背后的逻辑。
2025-02-21 18:58:35
1423
原创 纯视觉达到激光雷达水平!StreamPETR论文精读
本文提出了一种用于多视角三维目标检测的长序列建模框架,名为StreamPETR。该框架基于PETR系列中的稀疏查询设计,系统地开发了一种以目标为中心的时间机制。该模型以在线方式运行,通过目标查询逐帧传播长期历史信息。此外,我们引入了一种运动感知的层归一化方法,用于建模目标的运动。与单帧baseline相比,StreamPETR仅引入了微不足道的计算成本,却实现了显著的性能提升。
2025-02-20 15:25:49
1050
原创 统一的多摄像头3D感知框架!PETRv2论文精读
在本节中,我们通过一系列实验验证了PETRv2在3D目标检测、鸟瞰图分割和3D车道检测任务上的性能。PETRv2通过时间建模和特征引导的位置编码器,在多任务学习中表现出色,并在nuScenes和OpenLane基准测试中达到了最先进的性能。此外,我们还对PETRv2在模拟传感器误差(外参噪声、相机丢失和时间延迟)下的鲁棒性进行了详细分析,结果表明PETRv2在这些情况下具有较好的鲁棒性。未来,我们计划进一步探索大规模预训练、更多3D视觉任务以及多模态融合在自动驾驶系统中的应用。K_%7Bi%7D。
2025-02-18 16:20:35
1222
原创 PETR论文精读
本文开发了用于多视角3D目标检测的位置嵌入变换(PETR)。PETR将3D坐标的位置信息编码到图像特征中,生成具有3D位置感知能力的特征。目标查询(object query)可以感知这些3D位置感知特征,并执行端到端的目标检测。PETR在标准的nuScenes数据集上达到了最先进的性能(NDS为50.4%,mAP为44.1%),并在基准测试中排名第1位。它可以作为未来研究的一个简单而强大的基线模型。
2025-02-17 17:30:32
895
原创 具有稀疏模型的循环时间融合!Sparse4D v2论文精读
稀疏算法在多视角时序感知任务中提供了极大的灵活性。在本文中,我们提出了一种改进版的 Sparse4D,通过递归形式的多帧特征采样改进了其时序融合模块。通过有效地解耦图像特征和结构化锚点特征,Sparse4D 实现了时序特征的高效转换,从而仅通过逐帧传输稀疏特征来实现时序融合。递归时序融合方法带来了两个主要好处。首先,它将时序融合的计算复杂度从 O(T) 降低到 O(1),从而显著提高了推理速度和内存使用效率。其次,它能够融合长期信息,从而由于时序融合而带来更显著的性能提升。
2025-02-15 17:37:59
1115
原创 进一步提升的端到端3D目标检测跟踪!Sparse4D v3论文精读
在时序多视角感知研究领域,基于稀疏的算法取得了显著进展 [41, 6, 5, 43, 26, 27],其感知性能已与基于密集鸟瞰图(BEV)的算法 [21, 13, 11, 19, 18, 35, 44, 8] 相当,同时具有以下优势:1)无需视图变换。这些稀疏方法消除了将图像空间转换为3D向量空间的需求。2)检测头的计算负载恒定,与感知距离和图像分辨率无关。3)更容易以端到端的方式整合下游任务。在本研究中,我们选择基于稀疏的算法 Sparse4Dv2 [26, 27] 作为实现改进的基线。
2025-02-11 16:08:47
1288
原创 CVPR2024 | 最强大的特征匹配!RoMa论文精读
特征匹配是计算机视觉中的一个重要任务,它涉及估计两张三维场景图像之间的对应关系,而密集方法则估计所有这样的对应关系。我们的目标是学习一个鲁棒的模型,即能够在现实世界中的各种挑战性变化下进行匹配的模型。在本工作中,我们提出了这样一个模型,利用了来自基础模型DINOv2的预训练冻结特征。尽管这些特征比从头开始训练的局部特征要鲁棒得多,但它们本质上是粗糙的。因此,我们将它们与专门的ConvNet细特征相结合,创建了一个能够精确定位的特征金字塔。
2025-02-06 19:49:52
1651
原创 快速且内存高效的占用预测!FlashOcc论文精读
鉴于在3D目标检测中缓解长尾缺陷和复杂形状缺失的能力,occupancy已经成为自动驾驶系统中的一个关键组成部分。然而,三维体素级表示的处理不可避免地引入了在内存和计算上的巨大开销,阻碍了当前occupancy方法的部署。与使模型更大更复杂的趋势相反,本文认为一个理想的框架应该对各种芯片友好,同时保持高精度。为此,本文提出了一种即插即用的范式,即 FlashOcc,以在保持高精度的同时巩固快速和内存高效的占用预测。特别是,本文的 FlashOcc 基于当代体素级占用预测方法进行了两项改进。
2025-01-21 15:54:12
895
原创 端到端泊车!ParkingE2E论文精读
自主泊车是智能驾驶领域中的一项关键任务。传统的泊车算法通常使用基于规则的方案来实现。然而,这些方法在复杂泊车场景中的有效性较低,因为算法设计复杂。相比之下,基于神经网络的方法往往比基于规则的方法更加直观和多功能。通过收集大量专家泊车轨迹数据,并通过基于学习的仿人策略方法,可以有效解决泊车任务。在本文中,我们采用模仿学习来执行从RGB图像到路径规划的端到端规划,通过模仿人类驾驶轨迹。我们提出的端到端方法利用目标查询编码器来融合图像和目标特征,并使用基于Transformer的解码器自回归预测未来的航点。
2024-08-06 23:59:54
2946
1
原创 端到端3D目标检测跟踪!Sparse4D论文精读
最近,基于鸟瞰图(BEV)的方法在多视图3D检测任务中取得了巨大进展。与基于BEV的方法相比,基于稀疏的方法在性能上落后,但仍具有许多不可忽视的优点。为了进一步推动稀疏3D检测,本研究引入了一种新方法,名为Sparse4D,它通过对空间-时间特征进行稀疏采样和融合,对锚框进行迭代细化。(1) 稀疏4D采样:对于每个3D锚点,我们分配多个4D关键点,然后将它们投影到多视图/尺度/时间戳图像特征上以采样相应的特征;
2024-07-06 21:05:40
3267
原创 LSS (Lift, Splat, Shoot)论文精读
自动驾驶车辆的感知目标是从多个传感器中提取语义表示,并将这些表示融合到单一的“鸟瞰视图”坐标系中,供运动规划使用。我们提出了一种新的端到端架构,它可以直接从任意数量的相机图像数据中提取场景的鸟瞰视图表示。我们方法的核心思想是将每个图像单独“提升”到每个相机的特征锥体中,然后“涂抹”所有锥体到一个光栅化的鸟瞰视图网格中。通过在整个相机阵列上训练,我们提供了证据,表明我们的模型不仅能够学习如何表示图像,而且能够将所有相机的预测融合成一个单一的、凝聚的场景表示,同时对校准误差具有鲁棒性。
2024-07-06 14:58:02
2008
原创 清华&地平线!SparseDrive:端到端自动驾驶 论文精读
传统的模块化自动驾驶系统被分解为不同的独立任务,例如感知、预测和规划,这导致了信息丢失和跨模块的误差累积。相比之下,端到端范式将多任务统一到一个完全可微分的框架中,允许以规划为导向进行优化。尽管端到端范式潜力巨大,但现有方法在性能和效率方面并不令人满意,特别是在规划安全性方面。我们认为这是由于计算成本高昂的 BEV(鸟瞰图)特征和直接的预测与规划设计。为此,我们探索了稀疏表示并回顾了端到端自动驾驶的任务设计,提出了一种名为 SparseDrive 的新范式。
2024-07-04 19:04:11
3774
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人