⼀、课题简介⭐
随着自动驾驶、机器人导航和智能监控等领域的快速发展,单一传感器(如摄像头、激光雷达或毫米波雷达)的感知能力已难以满足复杂场景的需求。
为了克服这一瓶颈,研究者们开始将激光雷达、毫米波雷达和摄像头等多种传感器的数据进行融合,构建一个更全面、更鲁棒的环境感知系统。这种融合的核心思想是优势互补。摄像头提供丰富的语义信息和纹理细节,对车道线、交通标志等识别至关重要;激光雷达则生成高精度的三维点云,提供准确的距离和深度信息,尤其在夜间或光线不足的环境下表现优异;而毫米波雷达在恶劣天气(如雨、雾、雪)下穿透性强,能稳定探测物体的速度和距离,且成本相对较低。通过融合这些传感器,系统可以实现全天候、全场景下的可靠感知,显著提高自动驾驶的鲁棒性和安全性。
当前的多模态感知融合技术正在从传统的融合方式,向更深层次的端到端融合和基于Transformer的架构演进。
传统的融合方式主要分为三种:早期融合直接在输入端拼接原始数据,但计算量巨大;中期融合则是在传感器数据经过初步特征提取后,将不同模态的特征向量进行融合,这是目前的主流方案,例如将所有传感器特征统一到鸟瞰图(BEV)视角下进行处理,这解决了不同传感器数据空间对齐的难题,并与下游任务无缝连接;晚期融合则是每个传感器独立完成感知,最后在决策层面进行结果融合,可解释性强但难以解决信息冲突。
在这些基础上,基于Transformer的端到端融合是当前最前沿的方向。这种架构借鉴了自然语言处理和计算机视觉领域的成功经验,通过其跨模态注意力机制,能够学习不同模态数据之间的深层关系,实现更高效、更鲁棒的特征交互。这种端到端的训练方式减少了中间模块的误差累积,能够直接从原始传感器数据输出感知结果,如三维目标框,从而更好地捕捉动态信息并提升整体性能。多模态感知融合技术已广泛应用于L2-L4级自动驾驶系统,包括高精度地图构建、全场景鲁棒感知和自动泊车等。然而,这一领域仍面临诸多挑战。
传感器标定是首要难题,确保不同传感器在空间和时间上的高精度对齐是融合成功的关键。此外,数据同步问题也需要解决,以应对传感器帧率不一致和时延不同步的情况。更重要的是,如何设计更高效、更鲁棒的融合算法,以有效利用和处理不同传感器数据的异构性和冗余性,是未来研究的核心方向。这些技术的不断突破,将为自动驾驶的商业化落地提供坚实的基础。

关键词:多模态特征提取;端到端自动驾驶;传感器融合;视觉表征学习
⼆、课程⽬的
解决只了解零散知识,没有清晰的体系的问题,帮助同学系统掌握指定方向的重点理论知识,同时做适当拓展,让学员对指定方向内容形成更清晰的体系;
解决没有方向,动手能力差,无法复现论文,帮助同学将模型理论与代码实践相结合,协助同学开发设计新模型铺垫基础;能让学员将baseline深化拓展,形成自己的论文;
解决⽂章不会写、写了不会投的问题,帮助同学积累⼀套论⽂写作⽅法论、获得修稿指导与投稿建议。
三、招⽣⼈数⭐
6⼈/期(⾄多8人)
四、招⽣对象⭐
本硕博,希望获取论文创新思路;
申硕申博、国外留学,提升简历含金量;
有科研需求,想融会贯通的使用算法模型,了解前沿进展和方向;
从事人工智能领域工作,想系统提升算法理论,高效掌握算法设计及创新思路,快速了解论文撰写技能;

五、课程收获
经典论⽂、前沿论⽂和代码实现——创新点、baseline、数据集——选题⽅法、实验⽅法、写作⽅法、投稿建议
12周【在线小组科研】+2周【论文指导】+10周【论文维护期】。
获得对经典及前沿的典型论⽂的分析⽅法,理解重点算法与原理、清晰不同算法的优劣势,也促使⾃⼰对研究idea的思考;
即使⾃⼰没有想到合适的idea,也能得到⽼师提供的idea从⽽进⾏后续的研究过程(导师会给每位同学都准备⼀个idea);
获得Coding能⼒的增强,在⽼师准备的baseline代码和可⽤数据集上更⾼效展开研究和实验⼯作;
获得论⽂写作、⾃查、修改的⽅法论,以及关于投稿的⼀些建议;
撰写出⼀篇论⽂初稿(⾃⼰完全投⼊课程的学习与实践中,将可能会产出⼀篇不错的论⽂)。
六、招生要求⭐
基础要求
具备深度学习基础,对于多模态融合算法有简单了解,熟悉掌握python语法,以及PyTorch的使用。
完成与老师在线的1v1面试
基础补⻬
Python编程语言入门
深度学习与PyTorch框架
入学基础先修课(随到随学):补充基础知识、强化后期课程理解能力,减轻学习负担
硬件要求
最好具备4张4090显卡或以上设备性能的机器; 最低不少于2张4090显卡的设备。
可以考虑租赁云服务器。
软件要求
掌握基本的编程语言(python等),具备基础编程能力.
熟练使用PyTorch等深度学习框架的调用和调试.
最好具备Linux系统下开发调试的能力.
学习要求
每周上课前按时阅读相关资料并完成相关作业。
作业必须在规定时限内完成。
课上积极参与讨论、交流。
应该全勤。若晚交作业、上课请假等必须提前1⽇通知班主任和导师并说明理由。
保持学术诚信,拒绝剽窃。
每次课后⾃学时⻓⾄少1-2⼩时。
七、课程亮点
“2+1”式优质授课师资,更全面的学习支持
项目采用“1+1”教学服务团队,为同学带来全方位的学习支持。
导师由名校教授、研究院、行业导师担任,领衔授课;
在此之上,配备经验丰富的科研论文班主任,全程跟踪监督项目进展,解决同学学习过程中的每个所需。
全学习周期服务更专业的科研体验
依据多年累积的教研经验,项目精心设计了每个学习阶段的教学支持,保证学习效果。
这一学习经历从项目正式开始前就已展开,导师将先对同学个人基础知识水平进行测试,并有针对性地帮助同学进行学术通识准备,以更好地开展项目;
项目开始后,主讲导师将根据同学个人特点,进行教学指导,并基于评估系统对每位同学的表现进行密切跟踪,通过便捷的问题反馈机制及时优化教学流程;
项目后期,在同学准备项目报告时,导师将带领同学进行学术知识复习与回顾,并对报告内容进行指导。
同时,对于非学术性问题(上课时间、线上软件操作流程等)将由班主任老师进行服务解决,以便同学更加专注于学术知识的研究
高学术标准更深刻的项目收获
项目均配备科学制定的《学员守则》与《学员表现评估体系》,让学员在理解学术诚信重要性的同时,提前感受高标准学术经历的魅力。
项目结束后,同学将有丰富、立体、全面的产出与收获,从申请材料、个人经历的角度更高效地助力申博申硕留学等申请与就业。
产出包括论文初稿、项目结业证书、看学生优秀程度给推荐信。
八、课程大纲⭐
提供数据集:
数据集来自于公开数据集,根据具体的任务来需用。
如本课题的多模态特征融合任务,可采用较为通用的多模态数据集ADUULM-360,nuScenes,KITTI等。
提供Baseline代码:
Baseline取决于具体的应用。
多模态 3D 目标检测:
https://github.com/bostondiditeam/MV3D
https://github.com/chaytonmin/Awesome-BEV-Perception-Multi-CamerasBEVFormer: BEV 视角下的 Transformer 融合:
https://github.com/zhiqi-li/BEVFormer
https://github.com/ADLab-AutoDrive/BEVFusion基于点云图像的多模态融合:
https://github.com/EPVelasco/lidar-camera-fusion
https://github.com/nesl/radar-camera-fusion-depth必读论文:
Multi-View 3D Object Detection for Autonomous Driving
https://arxiv.org/abs/1611.07759PointPillars: Fast Encoders for Object Detection from Point Clouds
https://arxiv.org/abs/1812.05784BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Videos with Transformer
https://arxiv.org/abs/2203.17270Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
https://arxiv.org/abs/2202.02703BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation
https://arxiv.org/abs/2205.13542
参考时间安排:
*以下为参考课表,最终时间安排以实际通知为准
WEEK
课程主题
课时(小时)
课程内容/阶段产出
1
Week1
先导课
1--1.5
介绍课题应用和课程安排
2
Week2
课题概览与科研路径介绍
1--1.5
本课题科研论文的发展、各创新点和算法的对比
3
Week3
选题讨论
1--1.5
确定每位同学的研究Idea
4
Week4
传统模块化自动驾驶感知系统介绍
1--1.5
详解传统自动驾驶的模块化感知架构
5
Week5
多模态融合的演进:从数据到特征介绍
1--1.5
深入探讨多模态融合技术的不同演进阶段
6
Week6
BEV 视角下的多模态融合介绍
1--1.5
详解当前最前沿的多模态融合范式——鸟瞰图(BEV)
7
Week7
基于 Transformer 的端到端多模态融合
1--1.5
详解介绍如何将Transformer架构应用于多模态感知融合
8
Week8
激光-视觉深度融合技术
1--1.5
深入讲解激光雷达与摄像头的深度融合技术
9
Week9
雷达-视觉-激光三元融合技术
1--1.5
聚焦毫米波雷达、视觉和激光雷达的三元融合
10
Week10
多模态融合数据集与评价指标
1--1.5
介绍用于多模态融合研究的几个重要数据集以及评价指标,数据集包括nuScenes、Waymo Open Dataset和KITTI
11
Week11
多模态融合应用与挑战
1--1.5
探讨多模态融合技术在实际应用中的具体场景,如高精度地图构建、自动泊车、以及恶劣天气下的鲁棒驾驶
12
Week12
未来发展方向与展望
1--1.5
探讨如何利用自监督学习和生成式模型来弥补标注数据的稀缺性,如何探索多任务学习和知识蒸馏等技术来优化模型的效率
13
Week13
论文写作方法论
1--1.5
点评指导论文框架和草稿
14
Week14
课题汇报与投稿意见
1--1.5
讲解关于论文选会选刊、投稿的方式
九、服务方式
班主任:督学,跟进学习进度。
十、上课平台
腾讯会议直播+小鹅通回放
十一、Q&A
Q1:没有基础怎么办?
A:前期课程安排为基础为主,实在跟不上,提供基础课程与前训论文,可在课下学习基础内容或读论文。
Q2:我自己有课题,老师可以单独指导我这部分嘛?
A:不可以,老师不会指导非课程安排的方向,但如果方向差不多是可以做迁移的,学完我们的课用自己的数据集进行训练
Q3:课程有效期及服务有效期是多久?
A:授课周期为3.5-4个月,答疑周期为6个月
Q4:我们的课程能交付给学员比较大的价值是什么?
A:科研流程,写作方法,论文初稿

扫码立即咨询 十二、联系与咨询

4298

被折叠的 条评论
为什么被折叠?



