量产之问 | 自动驾驶本周热点讨论

最新推荐文章于 2025-12-16 17:19:27 发布

转载最新推荐文章于 2025-12-16 17:19:27 发布 · 233 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247642271&idx=4&sn=2854ce36c222c5c6e1ab1c84741388fe&chksm=cf86ec89f166703ab5c53ee2dd04770fc68b3cd751a5922279996f8466377a4f07f72c4d5978&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『星球vip』技术交流群

本文内容均出自『自动驾驶之心知识星球』

1.大佬，想问一下有没有通过视觉大模型来做行为预测的工作呀？

回答1：应该是有的，有类似occworld的工作，九月份有个综述可以看下【自动驾驶中的大模型！】全面概...

2.请问，用多模态大语言模型去挖掘带有目标物体（文本 prompt ）的图片，现在推荐的预训练大语言模型或者框架吗？我目前能够到想到 base model 的是 sam 和 clip 结合。但不知道对小目标的精确度性能如何。

回答1：大模型我还不太熟悉，我理解你是想做类似grounding的任务，小目标可以搜下arxiv，按照小目标的关键词搜索下

3.对于NOA功能怎么确定域控里跑的是啥地图？HD/SD/HQ map?

回答1：至少可视化界面上你看不出来。。。只能猜吧？可以这样，去一些hard case场景看看，或者没有高精地图的地方看看（不太可能采集到的），看看效果咋样，如果效果很差，说明依赖高精

回答2：也不能单纯以来高精，现在无图的效果基本上可以和有图对齐了。域控里面跑的啥地图要找下游规控问一下，SD这种信息都是图商提供的，算法怎么用下游怎么用都不是固定的模式

回答3：可视化界面可以看出来是不是HD，对地面标志（左转，右转，掉头）的识别如果在跳动，说明不是HD，是靠感知的呲牙

4.大佬，数据处理(大模型自动标注）和三维重建那个方向更值得选？

回答1：我觉得都可以，算是上下游关系了，重建后再去做一些自动标注。个人觉得如果能接触到大模型相关的知识，做自动标注方向吧，接触的训练模型方面更多一些，三维重建需要很多SLAM，Nerf还有3DGS知识，看你背景如何。

5.有协同检测数据集opv2v、v2xset的网盘链接吗，从官网下载流量不够....

回答1：去opendatalab搜索下

6.有人会魔改pytorch源码吗？pytorch源码目录繁多，根本搞不清都是哪些做用啥的，有人知道要魔改一个算子的话，需要从哪里入手吗？

回答1：魔改算子？这个有点难，比如采样插值等等，你要看底层代码，然后修改完之后怎么封装等等

回答2：官方文档有写如何自定义算子，你去看看呢

7.提问：想做单相机的bev感知，以kitti数据集做参考，请问在自制数据的时候，是否可以只用一个16线激光雷达和一个彩色相机采集数据。如果不行，还有哪些传感器是必备的呢

回答1：分不分量产车和真值车，真值还需要稠密些的点云标注

回答2：目前还不用在车上，现在是想先采些数据，做3D目标检测和BEV检测，是不是没有GPS/IMU也可以

8.请问我跑多目标跟踪代码，CPU占用比较多，但是也会用到一点GPU，最好在网上租什么服务器，我看网上单独租CPU的其中并没有GPU，所以不能单独租CPU，昨天试2080ti，内存没有跑满，但是跑的也是比较慢。

回答1：一般这种代码后处理比较多，所以cpu占用多一些。服务器根据你的需要就可以了，一般跟踪对gpu需求不高

回答2：有些库里面的算子可能有gpu加速，主要还是cpu为主

9.各位佬上午好～想问一下针对BEV空间中的栅格划分，现在有使用动态变化方式的方案吗？例如近/远处的格子分辨率不同或者近远处密集/稀疏程度有差别

回答1：这种不行吧，动态划分一些2d feat到bev上的cuda算子不好做吧

10.你好，我是一名基础架构的工程师，学习自驾是想了解，自驾算法会对视频图像进行抽帧，每帧都是很小的图片，请问下在工业落地的时候，如何解决海量小文件读取的性能瓶颈？本人想到有两条路：

第一条就是把大量的图片合成一个大图片，类似pickle这样的解决方案？

第二条就是在训练框架里面，每次输入源做优化，把很多相近时间段内的图片灌进去，避免出现读随机性？

本人对算法框架的输入源控制不太熟悉，因此想请教下这两种方法落地可行性，还有没有其他工业界落地比较好的方案？多谢

回答1：在实车运行时，自驾算法是按照时间序列输入图像和其他传感器数据的，不会同时海量小图。如果是训练模型这个阶段，也会分batch进行。

11.想请问一下，目前视觉做一些3d目标检测之类的，如何适配不同相机，不同场景的呢？例如单目3d检测，训练涉及到使用相机内参，如何适配到其他相机。bevformer之类的？

回答1：两种方式，要么做域迁移，要么直接用虚拟相机。一般涉及到相机内参的事情，换个相机就不咋好用了，所以领域有一些域迁移的工作，少量本相机的样本+其它成像的数据，一起做优化。还有就是直接把相机模型统一，但这样会遇到一个问题，那就是可能视场角不太一样

12.相同的运算，改变运算顺序，会影响程序的运行结果吗？一段基本上都是乘法和加法的程序，运算结果和理想中的有一些误差，有可能是什么原因啊？

回答1：第一，要给点伪代码出来看看
第二，有可能是改变运算顺序的时候，如i++这些可能会有使用习惯不当导致获取结果不同。
第三，如果是一串很复杂的加法和乘法逻辑，那就一步步全部拆开，分步写等等。
第四就是使用分段调试，先对不同段之间的逻辑调换顺序，一点点调试看结果哪里会有差异

13.3dod的细分类（比如面包车小轿车之类）一般是怎么做的哇？

回答1：标注细分下

14.请教一下，移动机器人基于局部路径规划决策，传统的算法和基于深度强化学习的算法有没有比较好的算法可以推荐学习一下的。有开源的代码就更好了

回答1：机器人导航汇总链接：涉及移动机器人、水下机器人、视觉-语言导航、ROS等

综述

Autonomous Navigation and Collision Avoidance for Mobile Robots: Classification and Review

论文链接：[2410.07297] Autonomous Navigation and Collision A...我们的“具身智能之心”星球比较多哈哈

15.请问联合轨迹预测有没有什么常用的数据集，上次只做了Argoverse2被审稿人喷了

回答1：waymo interaction prediction benchmark也可以

回答2：这也能被喷，argoverse waymo这几个常用的都要跑跑嘛

16.介绍一下个人情况，本人研一，北京双非学校，目前方向是自动驾驶，但是没有任何人带，导师不是这个领域，跟着导师的小老师做，小老师是车辆工程专业的老师，但是做的比较传统，提供不了太大帮助，但个人非常适合这种自由度高但资源少的局面，也有信心去把这件事情做好。

我的目的是读博，因为我想做的是一些创造和探索性质的工作，当然最重要的肯定是想把自己的想法实现，自由度能高一些，自己想做什么就大程度能做什么，一开始想做规控，学习了控制的一些经典算法比如PID，LQR，在carsim上简单做了实验，但是肤浅的觉得传统控制领域（指的是应用在自动驾驶领域内的）没有太多空间去做了，无非是基于学习去优化一下原有的方法（这里是说研究空间，不是工程实际应用）。

而且端到端一直弄的我心痒痒的，所以我开始去较为深入的了解端到端，看了星球发布的端到端学习路线，认真看了端到端行业报告和几场PPT讲座，感觉我自己去弄端到端有点自不量力的感觉，而且实验室只有一张quadro RTX8000的卡。

其次比较关注的就是轨迹预测和3D目标检测方面。

因为我一直是想能先通过一些相较于端到端较为容易上手的而且实验室资源能够支持的模块入手，逐渐向端到端靠拢，而目标检测作为端到端依赖的最初起点，以及轨迹预测又作为模块端到端的起点，所以重点关注了一下这两个模块，而且觉得这两个模块的学习思维应该比较接近端到端的学习思维

问题：

1.那如果我要读博，还想做端到端，应该到底从哪入手呢，是3D目标检测，还是轨迹预测，还是说从其他的模块开始

2.我以上的这个思路是不是正确的，有没有认知上的偏差

3.从硕士三年，或者说两年半这个长线来看，基于我这个计划，我要提前做什么部署呢，需要注意哪些细小但举足轻重的东西呢

我一直想自己推测一个结果出来，可发现知之甚少，所以请教各位老师，感谢各位老师的悉心解答，谢谢各位老师！

回答1：有几个问题你需要想办法，自动驾驶感知的算力问题，端到端需要的算力也很大

1、端到端可以直接基于开源的算法入手，但你是小白入门，学习的过程差什么补什么，像3D目标检测、轨迹预测你在学习的过程都会针对性的补充学习

2、我看你整体的描述，觉得你整体上还在入门的阶段，有这些困惑很正常，大体两三个月就会越来越清晰要做什么 3、你现在所要做的就是紧跟前沿，热点随时会变，持续学习

17.请教一个问题，在nuScenes上跑点云语义分割，只用单帧进行训练，数据增强只有旋转翻转这样的简单增强，指标很低。我用SparseUnet，PTV3，Cylinder3D搞了都很低。同样的网络，在waymo上指标没有那么差。

是不是nuScenes数据集过于稀疏的原因呢？还是有其他原因呢？

回答1：第一你跑的算法有没有在nuScenes上进行实验，第二其他在nuScenes上实验的算法配置是怎样，这些你对比下

18.大佬们好，雷达cfar前数据（频谱数据）和camera有哪些融合方案或者论文可以参考，最好是稀疏的方法，求甩在我脸上

回答1：centerfusion、RCBEV可以看看

19.想问下有没有介绍相机，激光雷达等传感器原理的书籍或资料，包括传感器内部的原理和故障分析等等，感谢！

回答1：硬件这块确实没见过，相机的话有一些相机标定的书，激光雷达这些是不是看产品手册会更好？

回答2：B站上搜激光雷达拆解

20.目前在自动驾驶领域有没有真实数据和生成数据相结合的数据集

回答1：一般有用合成数据结合生成数据一起用提升性能的，直接做一个真实+合成意义不大，合成数据可以根据真实的做

回答2：这里面有些数据集，你可以看看【计算机视觉中的合成数据增强方法】

21.occ bev可以使用广角和鱼眼镜头一起组合使用么，因为提特征的网络是一样的，不同畸变的镜头一起组合使用有问题么，各个厂家有使用鱼眼镜头做occ bev任务么

回答1：大部分是去了畸变再进网络，地平线7号有篇部署ParkingE2E到J6的Demo就是这么做的。老哥也在做鱼眼Occ吗，可以交流下

22.现在大模型的可部署性怎么样？现在在车载芯片上可以用好大模型吗？

回答1：可以部署的，把模型裁一裁。本质还是transformer的部署。大模型可以用在座舱和端到端，可以参考下理想小鹏长安的发布会

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米，预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势，同期围绕个各关键板块举办论坛，欢迎报名参加。