导读: 作者引入多模态驱动的低秩适应(MMD-LoRA)方法,利用低秩适应矩阵实现从源域到目标域的高效微调,以解决不利条件下深度估计(ACDE)问题。它由两个核心组成部分构成:基于提示的领域对齐(PDDA)和视觉-文本一致性对比学习(VTCCL)。通过大量实验,该方法突显了其在适应各种不利环境中的鲁棒性和效率。
©️【深蓝AI】编译
论⽂题目:Multi-Modality Driven LoRA for Adverse Condition Depth Estimation
论文作者:Guanglei Yang, Rui Tian, Yongqiang Zhang, Zhun Zhong, Yongqiang Li, Wangmeng Zuo
论文地址:https://arxiv.org/pdf/2412.20162
1.研究背景
自动驾驶系统旨在应对各种现实世界条件。其中,主要挑战是解决诸多corner case场景,在不利条件下(如夜间、雾天、雨天和雪天)驾驶安全变得至关重要。这些不利条件不仅限制了车辆感知环境的能力,还增加了事故的风险,使得在这种情况下进行鲁棒的深度估计对于安全的自主驾驶至关重要。
解决这一问题的主要困难之一在于缺乏来自这些不利条件的高质量真实世界图像,收集这样的数据是件很困难的事情。此外,标注这些真实世界图像的高成本使得仅依赖传统的数据收集和标注方法变得不切实际。因此,人们只能寻找替代方法,而无需大规模的标注数据。
为此,一种在不同恶劣天气条件下进行深度估计的技术(ACDE)为当前研究热点,它在未见过的天气条件下估计深度信息,而无需依赖大量标注样本。尽管以往的方法(如md4all)取得了显著进展,但它们主要依赖生成模型将晴天条件下捕获的图像转换为表示不利天气的图像。然而,这些生成方法依赖于足够的目标图像来构建训练良好的模型(例如ForkGAN)。另一方面,一些方法利用可学习的参数进行特征增强,以适应目标领域,导致模型复杂性和调优工作的增加。此外,与CLIP基础的方法不同,深度估计模型缺乏足够的对齐来匹配文本和视觉空间,阻碍了在不利条件下的连贯理解。
在本文中,作者提出了一种新的方法:MMD-LoRA,它通过引入低秩适应(LoRA)技术与对比学习相结合,来解决不利条件深度估计(ACDE)任务。具体来说,通过设计多模态驱动的低秩适应(MMD-LoRA),以解决源域到目标域的领域差距以及视觉和文本表示之间的错位。MMD-LoRA的核心创新在于两个主要组件:基于提示的领域对齐(PDDA)和视觉-文本一致性对比学习(VTCCL)。
具体贡献如下:
-
作者提出了MMD-LoRA,这是一种新的ACDE方法,通过结合低秩适应(LoRA)技术与对比学习,有效地解决了领域差距和多模态错位问题。
-
作者还提出了基于提示的领域对齐(PDDA),该方法在图像编码器中使用可训练的低秩适应矩阵,并由文本嵌入引导。这一组件能够在不需要额外目标图像的情况下捕获准确的目标域视觉特征。同时,视觉-文本一致性对比学习(VTCCL)旨在实现稳健的多模态对齐,通过分离不同天气条件的嵌入,同时将相似的嵌入聚集在一起,从而增强一致性表示。
-
大量实验表明,MMD-LoRA在两个流行基准(包括nuScenes数据集和Oxford RobotCar数据集)上的不利环境条件深度估计中表现出色。
▲图1 | 基于LoRA和基于增强方法的深度估计结果对比©️【深蓝AI】编译
2.相关工作
2.1. 不利条件下的深度估计
不利天气条件会导致激光雷达传感器的测量出现错误,特别是在雨天由于道路积水产生的反射,以及在夜间照明时非纹理区域的影响。这些因素妨碍了像素对应中的准确深度估计。迄今为止,仅有有限数量的研究探讨了不利天气条件下的深度估计。
最近,在不利天气条件下深度估计方面,已通过基于图像增强的方法和基于风格迁移的方法获得了一些进展。这些基于图像增强的方法仅集中于解决与照明不足和反射相关的问题。然而,这些方法通常未能建立一个统一的框架来提供更强大和通用的解决方案。为了解决这一局限性,提出了基于风格迁移的方法,以构建一个应对多种不利天气的统一框架。例如,md4all通过利用像ForkGAN这样的生成模型将晴天条件下捕获的图像转换为描绘不利天气的图像,从而实现源领域图像的多样化。类似地,Fabio等人利用先进的文本到图像扩散模型生成新的用户定义场景及其相关的深度信息。
2.2. 零样本深度估计
零样本(Zero-Shot)深度估计是一项重要的挑战任务,要求在推理时有效地使训练于源域图像的深度估计器推广到未知的目标域。例如,Zoedepth通过在多个数据集上进行预训练,结合相对和度量深度,并采用轻量级解码器使用度量深度信息微调模型,从而取得了令人印象深刻的泛化性能。Ranftl等人提出了一种对深度范围和缩放变化不变的鲁棒训练目标,通过结合来自不同源的数据来提高泛化性能。最近,Depth Anything通过扩展训练集至约6200万张图像来提高模型的泛化能力。尽管这些努力增强了零样本推理能力,但仍然迫切需要更多高质量的合成真实世界图像。
2.3. 多模态对齐策略
多模态对齐增强了模型的场景感知能力,并捕获真实世界场景的细粒度表示。例如,Alec Radford等人开创性地将自然语言作为图像表示的监督信号,实现视觉和文本编码器的对齐。Yu等人开发了一种实例-语言匹配网络,在CLIP骨干网络中使用视觉提示学习和交叉注意力,促进实例和文本嵌入的匹配。Zhou等人引入了伪标注和自我训练过程,以在缺乏标注的情况下实现语义分割任务的像素-文本对齐。
与这些预先对齐的CLIP基础方法不同,深度估计模型在多模态特征之间缺乏足够的对齐,阻碍了在不利条件下的连贯理解。文本编码器与图像编码器之间的不对齐不可避免地破坏了LoRA在不利条件下的泛化能力,并导致次优结果。
3.方法精析
3.1. 提示驱动领域对齐
在预训练步骤中,基于 MMD-LoRA 的基准深度估计器中的图像编码器在 PDDA 过程中,受对齐损失的监督下,捕获准确的目标领域视觉表示。同时,VTCCL 将不同天气条件的表示分开,并将相似的表示聚集在一起,以进一步增强 MMD-LoRA 对各种不利条件的泛化能力。在训练步骤中,使用训练好的 MMD-LoRA 将可训练的低秩分解矩阵注入到深度估计器的图像编码器的自注意力模块中的 ‘q’,‘k’,‘v’,‘proj’ 层,并进一步优化深度估计器。给定源域中的图像