
文章主要内容总结
本文针对自动驾驶系统(ADS)开发中日志数据检索的挑战,提出了一种基于大型语言模型(LLM)的多模态日志检索方法。研究结合信号日志数据与测试驾驶视频,通过自然语言查询替代传统SQL查询,降低专业知识门槛,并引入场景距离图和相对差距指标(如LGap、RLGap)量化评估检索结果的可靠性。
实验采用Zenseact开放数据集(ZOD),包含1,473条测试序列,通过对比不同提示(Prompt)、数据模态(图像vs.视频)和模型(LLaVA、InternVideo、Cogvlm),得出以下结论:
- Prompt 4(结构化指令)生成的描述最简洁准确,平衡了细节与检索效率;
- 视频数据比单帧图像更能捕捉动态信息(如速度、加速度),提升描述可靠性;
- LLaVA模型在识别高相关记录和过滤无关结果上表现最佳;
- 查询难度与关键词语义一致性显著影响检索质量,短查询搭配长描述可能导致相关记录遗漏。
此外,研究开发了API实现高效数据库查询,并通过可视化(如小提琴图)辅助结果验证,为自动驾驶日志管理提供了可落地的解决方案。
文章创新点
- 多模态融合检索
基于LLM的自动驾驶日志多模态检索方法
订阅专栏 解锁全文
1920

被折叠的 条评论
为什么被折叠?



