MMCA：多模态动态权重更新，视觉定位新SOTA | ACM MM‘24 Oral

最新推荐文章于 2024-12-09 16:32:48 发布

晓飞的算法工程笔记

最新推荐文章于 2024-12-09 16:32:48 发布

阅读量1.1k

点赞数 28

分类专栏：晓飞的算法工程笔记文章标签：人工智能计算机视觉算法机器学习

本文链接：https://blog.youkuaiyun.com/lichlee/article/details/143476683

版权

来源：晓飞的算法工程笔记公众号，转载请注明出处

论文: Visual Grounding with Multi-modal Conditional Adaptation

创新点

视觉定位旨在将传统的物体检测推广到定位与自由形式文本描述相对应的图像区域，已成为多模态推理中的核心问题。现有的方法通过扩展通用物体检测框架来应对这一任务，使用独立的视觉和文本编码器分别提取视觉和文本特征，然后在多模态解码器中融合这些特征以进行最终预测。

视觉定位通常涉及在同一图像中定位具有不同文本描述的物体，导致现有的方法在这一任务上表现不佳。因为独立的视觉编码器对于相同的图像生成相同的视觉特征，从而限制了检测性能。最近的方法提出了各种语言引导的视觉编码器来解决这个问题，但它们大多仅依赖文本信息，并且需要复杂的设计。

受LoRA在适应不同下游任务的高效性的启发，论文引入了多模态条件适配（MMCA），使视觉编码器能够自适应更新权重，专注于与文本相关的区域。具体而言，首先整合来自不同模态的信息以获得多模态嵌入，然后利用一组从多模态嵌入生成的权重系数，来重组权重更新矩阵并将其应用于视觉定位模型的视觉编码器。

MMCA遵循典型的端到端编码器-解码器范式：

给定一幅图像和一个语言表达作为输入将其输入到编码器部分，以生成相应的特征嵌入。
1. 在语言分支中，语言主干将经过分词的语言表达作为输入，并提取文本特征 $f_t\in \mathbb{R}^{N_t\times C_t}$ ，其中 $N_t$ 是语言标记的数量。
2. 在视觉分支中，CNN主干首先提取一个二维特征图，然后经过一系列变换器编码器层，生成一个展平的视觉特征序列 $f_v\in \mathbb{R}^{N_v\times C_v}$ 。
3. 多模态条件适应（MMCA）模块以层级方式应用于卷积层和变换器层的参数矩阵。该模块同时接受视觉和文本特征作为输入，并动态更新视觉编码器的权重，以实现基于语言的视觉特征提取。
将视觉和文本特征嵌入连接在一起，并在多模态解码器（视觉-语言变换器）的输入中添加一个可学习的标记 [REG]，该解码器将来自不同模态的输入标记嵌入对齐的语义空间，并通过自注意力层执行模态内和模态间的推理。
回归头使用 [REG] 标记的输出状态来直接预测被指对象的四维坐标 $\hat b = (\hat{x}, \hat{y}, \hat{w}, \hat{h})$ 。与真实框 $b = (x, y, w, h)$ 的训练损失可以表述为：