陈巍:2023年9月,Meta的研究人员推出了AnyMAL(任意模态增强语言模型,Any-Modality Augmented Language Model)。该模型能够理解多种模态信号并生成文本回应,即多模态输入,单模态输出。输入的模态可包括图像、视频、音频和IMU(惯性测量单元,Inertial Measurement Unit)传感器数据。

典型的多模态大模型基本架构(来源:腾讯AI Lab)
AnyMAL继承了LLaMA-2(70B)的文本推理能力,并借助预训练的对齐模块,将不同模态的信号映射为统一的文本空间。AnyMAL可以认为是LLaMA-2的多模态版本。该模型使用人工收集的多模式指令集对模型进行微调,以涵盖各种交互任务。
7.3.1 AnyMAL主要特点
典型的大模型ChatGPT,开源的GPT-J、OPT、LLaMA、Vicuna,以及最近的LLaMA-2等单一模态模型已经被各行业广泛应用。但依然有很多行业,例如医疗、机器人、电子商务、零售,需要多模态大模型来处理混合数据。而且,合并其他模式的数据可以帮助提升模型性能。通过从文本以外的数据学习,模型可以增强的对现实世界的理解。
目前已有的多模态大模型在训练方法和架构上具有趋同的趋势,多使用两段式训练方法,按照一定次序分别训练视觉编码器和语言模型。例如 LLaVA 和 MiniGPT4 都冻住基础视觉编码器,单独训练语言模型, mPLUG-Owl先训练视觉编码再训练语言模型,以获得更好的“视觉-文本”跨模态理解效果。

两段式训练方法(来源:阿里巴巴达摩院)
与OpenFlamingo、Palm-E、BLIP-2、InstructBLIP、LLaVA、IDEFICS、MiniGPT-4等多模态大模型相比,AnyMAL具有以下特点:
(1)AnyMAL支持视觉和其他多种输入方式。
(2)AnyMAL使用人工收集的多模态指令对数据进行微调。
(3)通过预训练方法,AnyMAL将参数数量扩展到了70B。
AnyMAL整合了在大型数据集上预先训练的映射层,所有这些数据集训练都与LLaMA-2-70B-chat进行对齐,以实现交叉多模态的上下文提示。
AnyMAL采用跨三种模式(图像、视频和音频)的多模态指令集对模型进行微调,涵盖各种的任务,不仅是简单的QA(问答)。
与现有文献中的模型相比,AnyMAL在各种任务和模式的自动和人工评估中都取得了很好的零误差性能,在VQAv2上相对准确率提高了7.0%,在零误差COCO图像字幕上提高了8.4%的CIDEr,在AudioCaps上提高了14.5%的CIDEr。其中CIDEr是用于评价图像标注(Image Captioning)效果的评价指标
7.3.2 AnyMAL架构
AnyMAL的整体架构属于合并注意力架构(Merge-attention)。以视觉-语言模态模型为例,该类架构通常包括 3个关键要素:图像编码器、文本编码器以及多编码器信息融合策略。
AnyMAL集成了三个主要模块:
- 功能更强大的指令调整LLM(即LLaMA-2-70B-chat)。
- 更大的预训练模态编码器。
- 先进的映射层(Projection Layer)以处理可变的输入长度。

Meta的研究人员推出AnyMAL,一个能理解多种模态信号并生成文本回应的模型,通过预训练和多模态指令调整提升了跨领域任务的性能。它在COCO等任务上展示了接近人类的准确率,强调了指令调整在大模型中的重要性及模态对齐的优化作用。
最低0.47元/天 解锁文章
5316

被折叠的 条评论
为什么被折叠?



