作者 | 叶小飞 编辑 | 汽车人
原文链接:https://www.zhihu.com/question/524855881/answer/2819447733
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
本文只做学术分享,如有侵权,联系删文
当我不再拿着锤子找钉子,不再去瞎凑模型硬卷分数,而是先深度、反复思考研究领域到底有哪些未解决甚至未被发现的痛点,再去针对性设计算法后,我的科研成果得到了一个质的飞跃。
我的研究领域主要是自动驾驶感知与仿真。2021年年初开始读博时,整整一年只中了一篇ITSC,而在这之前一作只中过类似ICPR这样的水会。在2021年年底得益于导师的引导与鞭策下,我忽然领悟上面说的这个看似十分简单的道理,然后2022年连中多篇一作论文,包括CVPR, ECCV, ICRA, CoRL, IROS, WACV诸多不错的会议还有SCI一区的论文。在我把主要论文代码都全部开源后,收获了上千star,引用比去年涨了近7倍。这些成果当然离大佬差很多,不过对我来说却是一个重要的分水岭。
这个道理是在21年底赶ECCV论文V2X-ViT时顿悟出来的。这篇是关于一个偏新的领域--协同感知的,即多个L4汽车与路端传感器可以通过V2X共享感知信息, 我需要研究出一种最佳的模型来融合这些分享的感知信息,从而达到更广、更远、更精准的感知表现。
最初拿到这个课题,我一拍脑袋就说,这每个智能体把自己从sensor measurements里面提取的neural features相互一传,整个transformer做个attention不就完了吗?导师听了之后非常无奈地和我说,你这样做出来有什么意义?有真正解决什么问题吗?经过灵魂拷问后,我开始进行深度思考,然后忽然灵光乍现:自己一直纠结于算法设计如何搭积木,可是却没有真的好好想过这个课题本身到底有哪些更实际、真的会影响到未来落地的挑战。然后我就画出了下图:

我发现,协同感知其实有非常多的domain-specific问题还没有被很好的探索过,比如信息传输导致的时间延迟,GPS定位不准导致的信息整体位移偏差,路段传感器与车端传感器摆放高度不同、型号不同导致的异构性,可能存在的黑客攻击通讯等等。发现了这些问题后,自己忽然思路大开,设计算法也变得简单了很多 -- 你不再是盲目地搭积木,而是针对每个子问题去设计你的算法(虽然还是在搭积木LOL),这样的最大好处在于,你十分容易讲一个well-motivated的故事。同时由于你在研究一个新的问题,你不需要去卷一些已有的知名榜单,能将这个问题讲明白,并且在自己的setting下打败其他人即可,难度大大降低。于是针对我提出的前三个问题,我和队友设计了下图三个不同的transformer component,将他们组合在一起形成了我的V2X-ViT。

ECCV reviewer在他们的comments中全都提到了一点,那就是整篇文章的设计十分motivated, 算法部分很novel, 这也证实了我这种思路转变带来的巨大作用。
这种发现特殊、具有实际价值的问题,然后再魔改最热门的技术来解决这个特定问题的approach,非常适用于科研发表。于是我思路大开,写文章忽然轻松了很多。V2X-ViT用的全是LiDAR, 很明显太贵了,为什么不换成纯camera来做3D预测?这不就相当于一群特斯拉可以互相合作,是不是有潜在的落地价值?于是便有了后来机器人顶会CoRL的CoBEVT。假设每个车的deploy的模型本身就有差异性,这个怎么解决?于是就又有了两篇ICRA。
再后来,我发现这种思维模式不仅仅局限于我这个偏新领域的课题,哪怕是很卷的领域也是适用的。比如最近巨卷无比的BEV感知,大家都在刷那几点精准度,大部分硬卷的最后都GG了,只有小部分论文能成为幸运儿。但是其实这个领域有很多比提高几个百分点有意义多的topic, 比如你在某种camera setting下训练好的模型,挪到另一种不同的setting (譬如车型换了导致camera的6D pose改变,或者camera型号变了)整个模型可能就会变得很差,这就大大限制了现在的模型可大规模deploy的可能性。再比如你六个相机的clock出现了较大的异步怎么办,亦或者研究相机位置如何摆放才能达到最大的精度等等,这些都是不错的topic. 在实验室与工业界有较大资源差距的情况下,用这样的思路往往可以避免硬卷,以巧取胜。
不过要真的施行这个看似简单的方法,其实需要一定的基础。
你需要阅读大量的文献。一方面你需要了解本领域有哪些问题已经被解决了,另一方面你也需要追踪最新的算法来帮助自己后面魔改。同时也不能只局限于自己本领域的论文,譬如V2X-VIT里面的一个模块就有借鉴一篇data mining的文章。
你需要有良好的写作技巧来讲清楚你的motivation, 这点非常重要。
这种思路很多时候需要你自己搭框架,所以也要有一定的代码基础。
其实在我看来,种种另辟蹊径的思维模式都是表,而非根。当一个人真的充满热爱与激情时,突飞猛进只是时间问题。这一点我相信不仅仅适用于科研,适用于各种各样的领域。
看了大佬的科研之路,不禁感叹科研之路道阻且长~CVPR、ICCV、ECCV、ICLR、NeurlPS、AAAI……想冲一把顶会,但没有大佬带,不知如何挖掘创新点?
面对让人绞尽脑汁的论文问题,在没有有效指导的情况下,全靠自己摸索很难有所建树。事实上,掌握有效的科研方法,get顶刊/顶会的套路,精准挖掘创新点,学习如何论文写作,叙述一个漂亮的story,完成一篇CCF/SCI高水平论文完全是一件完全可以做到的事情。

顶会发刊
SCI一区/CCF A、SCI二区/CCF B、SCI三区/CCF C、SCI四区、EI期刊、EI会议
无须多言,无论是申硕博还是求职,手握高区SCI/CCF都会是简历中的一大亮点!特别是对于想走科研路子的同学来说,高区SCI/CCF是必须的,一篇前沿方向的顶会/顶刊会让老师眼前一亮,但要写出一篇优秀的学术论文需要很多的学术知识和能力,此外期刊的审稿周期更长,需要更有耐心和毅力~
在这项辅导中,我们将CCF/SCI从写作到发表全程辅导。从学员的个性化需求出发,平台会给出最专业的建议,接着匹配一对一学术导师,一个足够优秀且适合你的“学术领路人”,从最初的论文调研,到开展实验再到最终产出论文,全方位进行指导!

论文带读
科研大牛的idea总是层出不穷,好想法的形成离不开日积月累的文献阅读和思考,慢慢形成正循环,最终输出idea。在带读项目里,老师将手把手带大家阅读领域综述和前沿顶会文章,梳理领域发展脉络,教会大家如何选论文、看论文、总结和归纳论文的主要贡献及可改进的方向,深入剖析优秀论文。
毕业论文指导
毕业论文总是愁倒了很多小伙伴~
毕业论文不会写?小论文不知如何选题?
导师完全放养,师兄也顾不上指导
自己独自苦苦摸索,却总也找不到门道
在毕业论文指导项目里,将匹配专业老师全程辅导,辅助同学选题并展开实验优化,解决各种出现的问题,全程辅助毕业论文的写作和润色!
主要辅导方向
感知融合:BEV感知、3D目标检测、多传感器融合、局部高精地图、多模态感知、车道线检测、分割、视觉大模型、占用网络OCC;
规划控制&预测:轨迹预测、运动规划、端到端自动驾驶;
重建与仿真:NeRF等;
国内外升学/留学规划咨询。
适合人群
有意向申博和出国的小伙伴;
有意向发表CCF/SCI 高区论文的小伙伴;
需要一篇满足毕业要求的中文核心、EI会议/期刊的小伙伴;
需要毕业论文指导的小伙伴;
刚入门深度学习,需要辅导入门的小伙伴。
学员福利
辅导课程方向的自动驾驶教学视频免费赠送;
自动驾驶与AI领域核心学术圈子;
结识全球顶尖学术和工业界大佬。

① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)

② 国内首个自动驾驶学习社区
近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】平台矩阵,欢迎联系我们!