
论文笔记
文章平均质量分 90
自动驾驶小学生
谢谢关注。代表作品:《Coursera自动驾驶课程24讲》:https://blog.youkuaiyun.com/cg129054036/category_10603636.html?spm=1001.2014.3001.5482
展开
-
抛砖引玉:RadarDet4D,NuScenes数据集Radar模态目标检测第二名(即将开源)
在NuScenes数据集上有很多经典的模型被提出并得到了验证,纯视觉3D目标检测经典的方法有BEVFormer、BEVDet系列、DETR3D、Sparse4D等工作,基于LiDAR的有CenterPoint、多模态有BEVFusion、DAL、UniTR等。下面是和SOTA方法的对比,尽管本文使用了多帧融合的方法但是感知精度上还是不如RadarDistill,不过由于融合了多帧信息,以及Radar本身具有测速能力,在mAVE指标上RadarDet4D还是好于RadarDistiil。原创 2025-06-02 21:43:24 · 448 阅读 · 0 评论 -
(已开源-CVPR2024) RadarDistill---NuScenes数据集Radar检测第一名
本文介绍一篇Radar 3D目标检测模型:RadarDistill。雷达数据固有的和给3D目标检测带来了巨大挑战。在本文中,作者提出了一种新的RadarDistill,它可以通过。RadarDistill利用三个关键组件将激光雷达特征的特征转移到雷达特征中:。在nuScenes数据集上进行的实验表明,RadarDistill在纯雷达目标检测任务中达到了最先进的性能(SOTA),mAP为20.5%,NDS为43.7%。此外,RadarDistill还提高了相机-雷达融合模型的性能。原创 2025-05-24 11:10:12 · 1131 阅读 · 0 评论 -
从零实现3D自动标注:MS3D、MS3D++
自动标注利器!MS3D++ 挑战悉尼超复杂人流检测性能~本文主要介绍如何使用进行3D自动化标注。目前开源的常用激光雷达数据集有KITTI、NuScenes、Waymo、ONCE、Argoverse2。当我们在自采数据集上进行3D检测模型开发时,一个头疼的问题就是如何进行标注。一个自然而然的想法就是使用开源的LiDAR检测模型在我们的数据上进行推理,生成3D框,保留置信度比较高的3D框作为真值。然而,由于KITTI数据量比较少(只有7481帧)、类别种类很少,很难满足需求;原创 2025-03-29 22:42:14 · 460 阅读 · 0 评论 -
Andrej Karpathy 最新AI讲座(3个半小时):Deep Dive into LLMs like ChatGPT(深入探索像ChatGPT这样的大语言模型)
【必看珍藏】2月6日,安德烈·卡帕西最新AI普及课:深入探索像ChatGPT这样的大语言模型|Andrej Karpathy。原创 2025-02-16 23:47:42 · 1345 阅读 · 0 评论 -
(已开源-ECCV24) 弱监督点云图像3D检测模型:Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance
本文介绍一篇点云图像自监督3D检测模型:VG-W3D。弱监督3D目标检测旨在学习一个标注成本低的3D检测器,例如使用2D标签。与之前的工作仍然依赖于很少准确的3D标注不同,本文对 KITTI 数据集进行了广泛的实验,以验证所提出的三个约束的有效性。在不使用任何 3 D标注的情况下,本文的方法与最先进的方法相比取得了良好的性能提升。原创 2025-01-12 15:56:46 · 420 阅读 · 0 评论 -
(已开源-AAAI25) RCTrans:雷达相机融合3D目标检测模型
在雷达相机融合三维目标检测中,,在相机雷达融合过程中提出了很多挑战。为了解决这个问题,我们引入了一种新的基于query的检测方法。原创 2025-01-05 14:50:06 · 1306 阅读 · 0 评论 -
(已开源-ECCV2024)BEV检测模型-LabelDistill,使用真值进行知识蒸馏
项目链接:https://github.com/sanmin0312/LabelDistill (中文版翻译)文章目录1. Introduction & Related Work2. Method & Code3. Experiments3.1 Main Results3.2 Ablation Study1. Introduction & Related Work2. Method & Code3. Experiments3.1 Main Results原创 2024-10-21 19:23:54 · 439 阅读 · 0 评论 -
(已开源-CVPR 2024)YOLO-World: Real-Time Open-Vocabulary Object Detection
然而,它们通常是在预先定义好的目标类别上进行训练,很大程度上限制了它们在开放场景中的可用性。为了解决这一限制,我们引入了 YOLO-World,这是一种创新的方法,通过视觉语言建模和大规模数据集的预训练来增强 YOLO,具有开放词汇检测能力。具体来说,我们提出了一种新的可重新参数化视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP,在精度和速度方面都优于许多最先进的方法。原创 2024-09-01 15:45:54 · 915 阅读 · 1 评论 -
(ICRA 2024) Diffusion-Based Point Cloud Super-Resolution for mmWave Radar Data
使用提出的LiDAR点云监督的。原创 2024-05-27 19:41:07 · 1757 阅读 · 0 评论 -
(已开源-ICRA2023) High Resolution Point Clouds from mmWave Radar
本文提出了一种用于生成的方法:RadarHD,端到端的神经网络,用于从低分辨率雷达构建类似激光雷达的点云。本文通过在大量原始雷达数据上训练 RadarHD 模型,同时这些雷达数据有对应配对的激光雷达点云数据。本文的实验表明,即使是在未遇见过的场景以及存在严重烟雾遮挡的情况下,RadarHD也能生成丰富的点云数据。同时,这些生成的点云也能应用于现有的激光雷达里程计和建图方法中。原创 2024-05-26 21:35:42 · 938 阅读 · 0 评论 -
地平线J5和J6芯片部署参考算法(2025.01.20)
本文主要是记录地平线官方提供的可在J5芯片上地平线官方提供的可在J6芯片上。原创 2023-07-27 22:28:50 · 6113 阅读 · 0 评论 -
详解KITTI视觉3D检测模型CMKD: Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection
论文收录于。原创 2023-05-29 21:44:59 · 2100 阅读 · 0 评论 -
(已开源)ECCV 2020 视觉BEV经典算法:LSS详解与代码
本文介绍一篇视觉BEV经典算法:LSS,论文收录于,本文通过显示的进行完成目标语义分割,重点是。原创 2023-03-06 21:58:43 · 6563 阅读 · 12 评论 -
详解视觉BEV3D检测模型: Fast-BEV: A Fast and Strong Bird‘s-Eye View Perception Baseline
本文介绍一篇视觉BEV3D检测模型:,论文收录于。目前大多数现有的BEV感知方案要么需要相当多的资源来执行车端推理,要么性能不高。本文提出了一种简单而有效的框架,称为,它能够在车载芯片上执行更快的BEV感知。为了实现这一目标,本文通过试验发现,其中,(1)和(3)使Fast-BEV能够在车载芯片上快速推理和方便部署,(2),(4)和(5)确保Fast-BEV具有竞争力的性能。这些都使得Fast-BEV成为自动驾驶车载芯片上高性能、快速推理和易于部署的解决方案。原创 2023-02-05 22:01:02 · 6263 阅读 · 0 评论 -
nullmax纽劢科技:《行泊一体中的感知方案介绍》
如何设计和高效利用 Memory Bank,在工程中是极有挑战的一项工作。转载 2023-02-04 11:30:39 · 2040 阅读 · 0 评论 -
详解多视角3D检测模型 BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection
论文收录于。在这篇文章中,作者提出了一种新的具有的三维物体检测器。本文提出的BEVDepth通过利用来提高图像深度估计的可信度。作者引入了,以增强深度预测能力。此外,针对不精确特征投影带来的副作用,设计了一种新的。此外借助定制的高效体素池化和多帧机制,BEVDepth在nuScenes测试集上实现了60.9%NDS,NDS得分首次达到60%。原创 2022-12-30 16:24:03 · 1826 阅读 · 12 评论 -
视觉BEV语义分割模型 Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?
本文介绍一篇简单的BEV语义分割模型,这篇文章出彩的是,分析了哪些因素对BEV语义分割影响比较大,此外还分析了如何更好使用Radar数据提高感知性能。原创 2022-12-18 18:57:29 · 3104 阅读 · 0 评论 -
单目3D物体检测模型(CaDDN): Categorical Depth Distribution Network for Monocular 3D Object Detection
论文收录于。单目3D物体检测的主要挑战在于,由于缺乏直接的距离测量,因此必须根据物体和场景线索来推断物体深度。过去许多方法试图直接估计深度来辅助3D检测,但由于深度预测不准确,性能都比较有限。本文提出了(CaDDN),通过预测每个像素的分类深度分布,将丰富的上下文特征信息投影到3D空间中合适的深度区间。然后,本文使用计算效率高的来产生最终的输出检测。本文将CaDDN设计为一种完全可微的端到端方法,用于。原创 2022-12-18 11:02:26 · 1507 阅读 · 0 评论 -
2022百度ApolloDay技术开放日:文心大模型在自动驾驶感知中的落地应用
2数据处理大模型技术是自动驾驶行业近年的热议趋势,但能否落地应用、能否用好是关键难题。百度自动驾驶依托文心大模型特色优势,率先实现技术应用突破。百度自动驾驶技术专家王井东表示:文心大模型-图文弱监督预训练模型,背靠文心图文大模型数千种物体识别能力,大幅扩充自动驾驶语义识别数据,如:特殊车辆(消防车、救护车)识别、塑料袋等,自动驾驶长尾问题解决效率指数级提升;此外,得益于文心大模型-自动驾驶感知模型10亿以上参数规模,通过大模型训练小模型,自动驾驶感知泛化能力显著增强。百度认为传感器融合是实现L4自动驾驶的必转载 2022-12-06 22:29:54 · 843 阅读 · 0 评论 -
自动驾驶之心:毫米波雷达-视觉融合感知方法(前融合/特征级融合/数据级融合)
4D毫米波雷达的兴起未来会促进相机与毫米波雷达的感知能力。之前在两个不同的4D毫米波雷达数据集上进行测试发现,一个数据集中平均每帧4D毫米波雷达会包含330个3D点,一个数据集中平均每帧会返回2700个3D点,点数远远多于传统的3D毫米波雷达,且同时还提供高度信息,无疑会大幅提高二者融合感知能力。转载 2022-11-13 21:16:32 · 8318 阅读 · 2 评论 -
详解4D毫米波雷达数据集(VOD)Multi-class Road User Detection with 3+1D Radar in the View-of-Delft Dataset
论文收录于。下一代毫米波雷达除了提供和外,还会提供信息。原创 2022-10-18 21:31:42 · 9107 阅读 · 21 评论 -
重读经典(CLIP下):《Learning Transferable Visual Models From Natural Language Supervision》
这里使用OpenAI提供的notebook演示CLIP。安装CLIP导入需要的库,PyTorch['RN50','RN101','RN50x4',''''''{'''.sum([int('''.'''('''.'''))'''for'''in'''.'''()]):,}'''下面是图片预处理,即preprocess然后是文本预处理,得到77个tokens") ''''''{}{[]}{[,]:.2f}下面进行zero-shot分类,这里使用CIFAR100{}原创 2022-10-04 22:38:45 · 1015 阅读 · 0 评论 -
重读经典(CLIP上):《Learning Transferable Visual Models From Natural Language Supervision》
CLIP自从去年2月底提出就立马火爆全场,它的方法出奇的简单、但是效果又出奇的好,很多结果和结论都让人瞠目结舌。比如作者说CLIP的迁移学习能力是非常强的,预训练好的这个模型能够在任意一个视觉分类的数据集上取得不错的效果;而且最重要的是它是zero-shot的,意思就是说它完全没有在这些数据集上去做训练,就能得到这么好的效果。论文里做了非常多的实验,在超过30个数据集上去做了测试,涵盖的面非常广,包括了OCR、视频动作检测、还有坐标定位和许多细分类任务。在所有这些结果之中,其中最炸裂的一条就是在。原创 2022-09-17 10:15:00 · 1771 阅读 · 0 评论 -
地平线:面向规模化量产的智能驾驶系统和软件开发
7月27日,地平线在智东西公开课开设的「地平线自动驾驶技术专场」第3讲顺利完结,地平线智能驾驶应用软件部负责人宋巍围绕》这一主题进行了直播讲解。本次分享主要分为以下4个部分:1、智能驾驶应用软件技术拆解2、软件视角的“软硬结合”与“软硬解耦”3、智能驾驶软件开发平台Horizon TogetherOS Bole™4、智能驾驶应用软件开发趋势展望。...............转载 2022-08-07 13:21:49 · 1431 阅读 · 1 评论 -
详解自动驾驶仿真数据集 SHIFT:A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation
SHIFT:A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation本文介绍一个新的自动驾驶仿真数据集:,论文收录于 CVPR2022。是所有自动驾驶系统要面临的挑战。然而,现有的图像和视频驾驶数据集。论文作者介绍了一个。在和、、等方面呈现离散和连续的变化。 数据集包含综合的传感器套件和多种注释,可以在不断增加的域变化水平上,促进的研究。数据集主页:https://www.vis.xyz/shift/......原创 2022-07-03 11:36:09 · 2756 阅读 · 1 评论 -
重读经典:《The Craft of Research(1)》
跟读者建立联系【研究的艺术·一】这一次李沐博士给大家精读的是一本关于论文写作的书籍。这本书总共包含四个大的章节,本期视频李沐博士介绍的是第一个章节:Research,Researchers,and Readers。视频开头,李沐博士介绍到:在学生年代,我的语文和英语基本上徘徊在及格线的边缘,所以在做论文写作的时候一直是不那么自信的,以至于我花了很多时间去学习怎么样做比较好的写作。但后来我发现两件事情:好的写作能给你带来至少两个好处:好消息是说论文写作其实并不难,至少比做研究本身要容易很多。在这期视频和接下原创 2022-06-25 21:10:02 · 2998 阅读 · 2 评论 -
重读经典:《End-to-End Object Detection with Transformers》
DETR 论文精读【论文精读】这一次朱毅博士给大家精读的论文是 ,是目标检测领域里程碑式的一个工作,文章收录于 。 是 的缩写,使用 简化了目标检测流程,不再需要 操作,直接将目标预测看作是。这篇论文在2020年5月第一次挂到 上的时候,就引起了计算机视觉圈的强烈反响,网上很多人都觉得这篇论文应该是 的最佳论文。从20年5月到22年5月两年的时间 的引用呢就已经超过了2000,而且它的官方代码呢也有将近 9000个star。如果跟去年大火的 相比, 的官方代码到现在也只有8000个star,所原创 2022-06-11 20:40:25 · 2771 阅读 · 0 评论 -
自动驾驶开源软件和算法库
github:https://github.com/carla-simulator/carladoc:https://carla.readthedocs.io/en/latest/website:http://carla.org/2. Kalman-and-Bayesian-Filters-in-Python (卡尔曼和贝叶斯滤波教材)github:https://github.com/rlabbe/Kalman-and-Bayesian-Fil原创 2022-05-20 10:42:13 · 2891 阅读 · 0 评论 -
地平线:面向规模化量产的自动驾驶感知研发与实践
导读4月27日,地平线智能驾驶感知研发部负责人苏治中就《面向规模化量产的自动驾驶感知研发与实践》这一主题进行了直播讲解。本次课程内容分为4个部分:1、地平线自动驾驶环境感知量产实践2、软硬协同的自动驾驶感知算法设计3、实现规模化量产的“最后一公里”4、感知技术的发展趋势1. 地平线自动驾驶环境感知量产实践首先,为大家简单介绍下自动驾驶分级,上图左边来自于SAE,是大家提到自动驾驶分级时最广泛看到或最广泛引用的权威来源。从定义上来看,L3级以上才算是自动驾驶。L3级自动驾驶功能里,汽..转载 2022-05-07 23:03:25 · 1714 阅读 · 0 评论 -
详解3D物体检测模型:Focal Sparse Convolutional Networks for 3D Object Detection
论文链接为:https://arxiv.org/abs/2204.12463项目链接为:https://github.com/dvlab-research/FocalsConv原创 2022-04-29 10:32:36 · 5750 阅读 · 3 评论 -
详解3D物体检测模型: Voxel Transformer for 3D Object Detection
论文链接为:https://arxiv.org/pdf/2109.02497.pdf项目链接为:https://github.com/PointsCoder/VOTR原创 2022-04-13 17:22:00 · 6967 阅读 · 5 评论 -
详解协同感知数据集OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with V2V Communication
在《详解自动驾驶仿真框架OpenCDA: An Open Cooperative Driving Automation Framework Integrated with Co-Simulation》 一文中介绍了自动驾驶仿真框架 OpenCDA。本文将介绍论文作者另一篇最新工作 OPV2V,论文收录于 ICRA2022。OPV2V 数据主要 feature 有:提出了首个多车协同感知大型数据集,在相同的时间戳下包含着多辆自动驾驶汽车的3D点云与相机RGB图像;囊括了73个不同的场景,6种道路类型.原创 2022-02-17 20:47:32 · 7437 阅读 · 12 评论 -
重读经典:《Masked Autoencoders Are Scalable Vision Learners》
MAE 论文逐段精读【论文精读】原创 2022-01-21 21:15:21 · 3298 阅读 · 4 评论 -
重读经典:《Momentum Contrast for Unsupervised Visual Representation Learning》
MoCo 论文逐段精读【论文精读】 这次论文精读李沐博士继续邀请了亚马逊计算机视觉专家朱毅博士来精读 Momentum Contrast(Moco),强烈推荐大家去看本次的论文精读视频。朱毅博士讲解的很详细,几乎是逐词逐句地讲解,在讲解时把 ViT 相关领域的研究也都介绍了,听完之后收获满满。ViT 应该是过去一年计算机视觉领域影响力最大的一个工作。ViT 挑战了卷积神经网络在计算机...原创 2021-12-18 19:12:08 · 6310 阅读 · 1 评论 -
重读经典:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》
ViT论文逐段精读【论文精读】 这次李沐博士邀请了亚马逊视觉专家朱毅博士来精读 ViT,ViT 应该是过去一年计算机视觉领域影响力最大的一个工作。ViT 挑战了卷积神经网络在计算机视觉领域的绝对统治地位。ViT 证明如果能在足够大的数据集上去训练,那么就可以不需要卷积神经网络,直接使用标准的 Transformer 也能把视觉问题解决好。ViT 不仅在计算机视觉挖了一个大坑;同是它也打破...原创 2021-11-30 22:57:45 · 7009 阅读 · 2 评论 -
重读经典:《Generative Adversarial Nets》
GAN论文逐段精读【论文精读】 GAN论文链接:https://arxiv.org/abs/1406.2661原创 2021-11-10 12:29:35 · 10216 阅读 · 0 评论 -
详解道路标记数据集 CeyMo: See More on Roads -- A Novel Benchmark Dataset for Road Marking Detection
本文介绍一个新的道路标记检测数据集,论文收录于 WACV2022。Ceymo数据集总共包含2887张图片,标注了11类共4706个道路标记实例,图片分辨率为 1920×10801920\times10801920×1080。其中,对于每一个道路标记实例,作者采用了三种标注方式:多边形、bounding box以及像素级标注。 除此之外,作者还提供了数据集评价指标和脚本程序,在数据集上作者还使用了实例分割和目标检测两种检测方法进行对比,作为baseline。从实验结果来看,实例分割的方法准确度高于目标检测方.原创 2021-11-02 21:31:44 · 7709 阅读 · 12 评论 -
重读经典:《Deep Residual Learning for Image Recognition》
ResNet论文逐段精读【论文精读】原创 2021-10-24 15:32:44 · 1464 阅读 · 2 评论 -
详解惯性导航论文 RINS-W: Robust Inertial Navigation System on Wheels
论文链接:https://arxiv.org/pdf/1903.02210.pdf原创 2021-10-17 22:02:02 · 3125 阅读 · 3 评论 -
重读经典:《ImageNet Classification with Deep Convolutional Neural Networks》
9年后重读深度学习奠基作之一:AlexNet【下】【论文精读】原创 2021-10-16 09:32:05 · 5893 阅读 · 5 评论