【导读】
为提升自动驾驶车辆在复杂环境下的感知可靠性,本文提出融合深度学习与多模态大语言模型(MLLM)的综合方案。研究评估了ResNet-50、YOLOv8、RT-DETR在交通标志识别上的优异表现(最高99.8%准确率)。针对车道检测,提出基于CNN分割并辅以多项式拟合的方法,在良好条件下精度高。创新性引入轻量级MLLM框架,通过小数据集指令调优(无需预训练),显著增强在复杂车道、不良天气(如夜间93.0%、雨天推理88.4%)及道路退化条件下的车道检测鲁棒性与推理能力。该框架整体提升了感知可靠性,助力安全自动驾驶。>>更多资讯可加入CV技术群获取了解哦
论文标题:
Advancing Autonomous Vehicle Intelligence: Deep Learning and Multimodal LLM for Traffic Sign Recognition and Robust Lane Detection
论文链接:
https://arxiv.org/pdf/2503.06313
本文评估了ResNet-50、YOLOv8和RT-DETR在多样化场景中的交通标志识别性能。此外,还引入了一种基于多模态LLM的道路元素检测流程,结合视觉和文本线索以增强车道识别。多模态大语言模型(MLLMs)融合图像、LiDAR和文本数据以改进自动驾驶车辆推理,而LiDAR-LLM通过将稀疏3D点云与语言模型对齐来扩展空间理解能力。该方法优化了车道可见性分析并验证了地图数据,提升了高精(HD)地图的可靠性和AV安全性。希望通过以下贡献推动自动驾驶车辆研究:
-
交通标志识别模型的系统比较:全面评估了ResNet-50、YOLOv8和RT-DETR架构在交通标志检测中的表现,分析了它们在分类准确性、实时性能和应对环境挑战方面的权衡。这一分析为在实际AV系统中部署最优模型提供了实用见解。
-
自适应多模态LLM框架用于鲁棒车道检测:提出了一种多模态LLM增强框架,旨在通过大语言模型(LLMs)的上下文推理能力提升自适应车道检测。该框架有效解决了动态道路环境中的复杂挑战,包括多样车道类型、复杂交叉口、退化标记和遮挡,克服了传统方法仅依赖视觉线索的局限性。该方法使LLM能够在视觉信息不完整或被遮挡时推断车道连续性和道路结构。此外,任务特定的提示和标注的颜色编码训练数据显著提升了感知准确性和在恶劣天气及低能见度条件下的适应性,从而增强了感知可靠性并确保自动驾驶系统的安全导航。
-
上手即用,主流模型一步到位!
目前,Coovally平台已全面集成ResNet-50、YOLOv8、RT-DETR等主流视觉算法,覆盖分类、目标检测等多种应用场景。
无需繁琐配置,一键选择模型即刻训练,彻底告别“找模型、配环境、改代码”的繁琐流程。
即使你是算法新手,也可以通过平台的可视化流程轻松完成从数据导入到模型验证的全流程操作。
一、相关工作
-
基于深度学习的交通标志识别
早期的交通标志识别依赖于手动特征提取和传统分类器。深度学习目前主导该领域,如ResNet-50通过残差学习实现了超过99%的准确率。单阶段检测器(如YOLOF-F)提升了小标志检测能力,在CTSD上达到77.2%的AP和32 FPS。Faster R-CNN提供了高准确性但计算量大。单阶段检测器(如SSD和YOLO系列)平衡了速度和准确性,最近变体(如YOLOv5)针对复杂天气优化,ETSR-YOLO提升了微小标志检测。基于Transformer的模型(如DETR)消除了后处理需求,而Deformable DETR和DINO改进了收敛性和小目标性能。近期研究表明,经过优化的Transformer在实时准确性上可以超越YOLO。注意力模型(如Swin-Transformer)和多尺度注意力模块进一步提升了标志识别能力。这些进展为交通标志识别方法奠定了坚实基础。
-
车道线检测技术
车道检测从边缘检测和霍夫变换发展到基于深度学习的分割方法。基于CNN的方法能够可靠地分割车道,通常结合多项式曲线拟合等后处理以平滑车道边界。结合时间信息的多任务学习进一步提升了检测稳定性。不良条件仍是挑战,车道标记在雨天或弱光下可能被遮挡。深度网络现在能够通过利用上下文道路线索推断车道,即使标记退化。最先进的模型(如LaneNet)在TuSimple上达到96.4%的准确率,而SCNN在CULane上实现了71.6%的F1分数,为比较设定了基准。
-
用于自动驾驶的视觉语言模型(VLMs)
视觉语言模型(VLMs)在驾驶场景理解和决策中发挥关键作用。近期进展聚焦于VLM驱动的自动驾驶策略,包括DiLu、DriveGPT4、GPT-Driver、HiLM-D、DriveMLM和DriveVLM,而Talk2BEV和LiDAR-LLM集成了LLMs、VLMs、BEV和LiDAR以提升感知能力。LLMs还增强了乘客与车辆的交互,并支持基于多模态传感器数据的语言引导闭环自动驾驶,如LimSim++和LMDrive。RAG-Driver通过上下文学习提升了零样本泛化能力,而Wayve的LINGO-1引入了开环驾驶评论系统。
二、研究方法
该框架包含两个主要组件:基于深度学习检测器/分类器的交通标志识别模块和自适应车道线检测与推理模块。下文描述了模型、数据集及多模态大语言模型的集成。
-
基于深度学习检测的数据集
为了训练和评估交通标志识别和车道检测的深度学习模型,从多个来源编译了数据集。对于交通标志检测,使用了德国交通标志识别基准(GTSRB)和TT100K数据集,并通过随机旋转、对比度调整和噪声注入等数据增强技术生成合成图像以模拟多样化环境条件。对于车道检测,整合了TuSimple和CULane数据集,两者均提供了不同光照和天气条件下的真实车道标记。预处理技术(如灰度归一化、直方图均衡化和边缘增强)被用于优化特征提取。最后,使用基于多边形的真实标注进行车道分割和边界框标注进行交通标志检测,以确保模型训练的鲁棒性。
-
交通标志识别模块
ResNet-50分类器:采用预训练的ResNet-50 CNN进行交通标志分类。该模型最初在ImageNet上训练,随后直接应用于包含43个标志类别的标注数据集。GTSRB作为主要数据集,并补充了多样化条件下的额外图像以增强鲁棒性。训练使用Adam优化器和交叉熵损失最小化,并采用早停策略防止过拟合。ResNet-50展示了强大的基线性能,实现了较高的验证准确率。
YOLOv8检测器:对于全帧交通标志检测,使用了YOLOv8,这是一种端到端训练的单阶段目标检测器,输出边界框和类别标签。自定义锚框先验用于对齐常见交通标志的长宽比,并应用马赛克数据增强以提升不同尺度和遮挡下的泛化能力。训练数据集整合了真实驾驶图像(行车记录仪数据集、TT100K)和合成场景(图1(c))以覆盖多样化环境条件。YOLOv8通过定位损失(完整IoU损失)和分类损失的组合进行优化。其多尺度特征图实现了小标志的实时检测,如图6所示,在挑战性道路条件下成功检测到交通标志。
RT-DETR Transformer检测器:采用实时检测Transformer(RT-DETR)模型进行交通标志检测。与传统目标检测器不同,RT-DETR采用Transformer编码器-解码器架构,无需区域提议和非极大值抑制。表3比较了其与其他基于DETR架构的性能,展示了其竞争力的mAP50分数。
为增强小标志检测,引入了基于注意力的特征融合模块,灵感来源于。该模型生成固定数量的预测,训练期间通过匈牙利算法与真实框匹配,优化联合损失函数(L1和GIoU用于框回归,焦点损失用于分类)。尽管RT-DETR需要比YOLOv8更多的训练周期,但其全局自注意力机制在复杂场景中表现更优,能够检测到YOLOv8遗漏的微小或被遮挡标志(图4)。
然而,其计算成本较高,在我们的设置中运行速度为10 FPS,反映了其对上下文推理而非实时效率的侧重。性能比较如图5所示。
-
MLLM框架架构
如图2所示(灵感来源于MiniGPT-v2),我们设计了一种轻量级简单架构,使用预训练的EVA作为视觉编码器,提供更强的特征表示和在高分辨率图像(448×448)上的更好泛化能力,并采用LLAMA-2-7b作为LLM解码框架。
如果你也想进行模型调优或者训练!在 Coovally 平台,开发者可以直接通过 SSH 协议安全地连接到Coovally的云端算力。
基于你熟悉的本地开发工具(如 VS Code, Cursor, WindTerm 等),即可实时编写、运行和调试你的模型代码,享受如同在本地开发一样的流畅体验,却能利用云端的澎湃算力加速训练与实验迭代。实时调试更自由!
-
无需代码,训练结果即时可见!
而且在Coovally平台上,包含关键点检测、多模态3D检测、目标追踪等多种任务类型,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!
无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:
-
免环境配置:直接调用预置框架(PyTorch、TensorFlow等);
-
免复杂参数调整:内置自动化训练流程,小白也能轻松上手;
-
高性能算力支持:分布式训练加速,快速产出可用模型;
-
无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。
!!点击下方链接,立即体验Coovally!!
平台链接:https://www.coovally.com
无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!
结论
本研究通过深度学习模型(ResNet-50/YOLOv8/RT-DETR)实现 高精度交通标志识别(最高 99.8%),并创新性引入 轻量级 MLLM 框架,以极小训练成本显著提升车道检测在恶劣环境下的鲁棒性(夜间 93.0%、雨天 88.4%)。该方案突破传统视觉感知局限,通过多模态融合与上下文推理能力,为自动驾驶在复杂场景的 安全导航提供可靠感知保障,同时为高精地图验证与系统可靠性优化提供新思路。