文章主要内容总结
本文针对自动驾驶系统(ADS)开发中日志数据检索的挑战,提出了一种基于大型语言模型(LLM)的多模态日志检索方法。研究结合信号日志数据与测试驾驶视频,通过自然语言查询替代传统SQL查询,降低专业知识门槛,并引入场景距离图和相对差距指标(如LGap、RLGap)量化评估检索结果的可靠性。
实验采用Zenseact开放数据集(ZOD),包含1,473条测试序列,通过对比不同提示(Prompt)、数据模态(图像vs.视频)和模型(LLaVA、InternVideo、Cogvlm),得出以下结论:
- Prompt 4(结构化指令)生成的描述最简洁准确,平衡了细节与检索效率;
- 视频数据比单帧图像更能捕捉动态信息(如速度、加速度),提升描述可靠性;
- LLaVA模型在识别高相关记录和过滤无关结果上表现最佳;