NeurIPS 2024 | 中科大、微信等提出VLoRA：参数空间对齐的多模态大模型范式

AI大模型老林

于 2024-10-25 17:28:42 发布

阅读量827

点赞数 23

文章标签：人工智能机器学习数据挖掘 opencv 目标检测神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_88022375/article/details/143239822

版权

本文提出了一种参数空间对齐的多模态大模型范式，该范式将输入图像特征转换成 LoRA 权重并合并到 LLM 中，使 LLM 感知图像视觉信息。该范式避免了在 LLM 的输入序列中引入视觉标记，在训练和推理上都非常高效。论文已被 NeurIPS 2024 接收，论文链接和代码均已公开，欢迎交流。

前排提示，文末有大模型AGI-优快云独家资料包哦！

输入空间对齐范式

1.1 介绍

在进入正题之前，我们先简单回顾一下当前主流的 MLLM 范式。以最具代表性的 LLaVA [1] 为例：

▲ Figure 1. LLaVA的结构框图

对于输入的图像，通过视觉编码器（Vision Encoder）和映射模块（Projection）提取特征，得到一个由视觉标记（Visual Tokens）组成的视觉序列，然后将视觉序列和文本在序列维度上拼接，一同输入到 LLM 中进行训练。在训练过程中，视觉序列是在对齐 LLM 的输入空间以让 LLM 能够理解视觉信息，我们称这种范式为输入空间对齐范式。

输入空间对齐范式有 2 个特点：

1. 视觉信息序列化，和文本信息具有相同的表现形式图像经过视觉编码器之后会变成视觉标记，然后通过映射模块映射到和文本标记（Text Tokens）相同的特征维度，最后形成了和文本信息相同的表现形式，即序列。

2. MLLM 中视觉和文本的模态交互通过注意力机制进行视觉信息序列化之后，会将视觉序列与文本序列在序列维度上拼接，然后同时输入给 LLM。在前向传播的过程中，视觉与文本通过注意力机制产生模态交互。

目前主流 MLLM 遵从输入空间对齐范式，比如 Qwen2-VL [2]，DeepSeek-VL [3]，和 InternVL2 [4]，如 Figure 2 所示。

▲ Figure 2. 输入空间对齐范式：Qwen2-VL, DeepSeek-VL 和 InternVL2

1.2 问题

输入空间对齐范式使用 CLIP 可以很容易将视觉特征对齐到 LLM 输入空间，因为 CLIP 的视觉特征预先和文本对齐过，本身具备丰富的语义信息，但是在训练和推理时计算效率低。

在输入序列达到一定长度的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。