《Baichuan-Omni》论文精读：第1个7B全模态模型 | 能够同时处理文本、图像、视频和音频输入

最新推荐文章于 2025-05-06 08:08:19 发布

原创

最新推荐文章于 2025-05-06 08:08:19 发布 · 1.7k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#多模态模型

在这里插入图片描述

论文摘要

论文介绍了一种新的多模态大型语言模型（Multimodal Large Language Model, MLLM），名为Baichuan-Omni。该模型是开源的，并且是首个能够同时处理图像、视频、音频和文本四种模态信息的70亿参数规模的模型。文章指出了GPT-4o在多模态能力与交互体验方面的突出表现，但指出目前缺乏一个高性能的开源替代品。因此，本文旨在介绍Baichuan-Omni，以填补这一空白。

具体来说，Baichuan-Omni的设计和训练方法包括以下几个关键点：

多模态训练框架：Baichuan-Omni提出了一个有效的多模态训练方案，从一个70亿参数的基础模型开始，经过两个阶段的训练：首先是多模态对齐（multimodal alignment），这一步是为了让模型能够理解不同模态之间的关系；其次是跨模态任务微调（multitask fine-tuning），即针对音频、图像、视频和文本等不同模态的任务进行精细化调整，使模型能够在特定任务上表现更佳。
多模态处理能力：通过上述训练方法，Baichuan-Omni获得了有效处理视觉和听觉数据的能力，这使得它能够在多种应用场景中提供先进的多模态交互体验。
性能展示：该模型在多个全模态（omni-modal）和多模态基准测试中展示了强大的性能，证明了其在实际应用中的潜力。
开放贡献：作者希望Baichuan-Omni能够作为开源社区的一个强有力的基础，促进多模态理解和实时交互技术的发展。

总之，Baichuan-Omni是一个重要的里程碑，它不仅为学术界和工业界提供了一个强大的工具来探索多模态学习的可能性，也为开发更加智能、更加互动的应用程序提供了新的机会。

1. 引言简介

人工智能领域正在迅速发展，尤其是在大语言模型（LLMs）的推动下，以及随后多模态大语言模型（MLLMs）的出现，这标志着机器如何理解和与世界的互动方式发生了转变。像GPT-4o这样的MLLM的出现，以其卓越的多模态能力和丰富的交互体验，不仅突显了这些技术在实际应用中的不可或缺性，同时也为人类与计算机交互设立了新的基准。

尽管MLLM取得了显著的进步，但当前的开源解决方案在多模态能力和用户交互体验方面存在明显的缺陷。这些缺陷极大地阻碍了这些模型在各种应用中的更广泛采用和有效性，从自然语言处理到计算机视觉以及更多领域。

针对这些挑战，作者提出了一种全能多模态语言模型 Baichuan-Omni 以及一种多模态训练方案，旨在促进高级多模态处理和自然用户交互。Baichuan-Omni 的架构如图2所示。Baichuan-Omni 的方案基于三个核心组件：

在这里插入图片描述

全模态数据构造 作者利用大量高质量、全方位的数据，结合开源、合成和内部标注的数据集，训练Baichuan-Omni。在多模态对齐预训练阶段，作者整理了包括图像描述、交错数据、OCR数据和图像文本数据的广泛训练语料库。 对于音频对齐，作者收集了开源和内部的数据集，用于自动语音识别（ASR）和音频问答（AQA）。在视频对齐领域，作者从开源和内部来源获取视频数据。在多模态监督微调阶段，作者汇编并合成了一个涵盖200多个任务，包括600,000个实例的广泛数据集，涵盖纯文本、音频、图像文本、视频文本和图像音频交互数据。

多模态对齐 在多模态对齐的预训练阶段，作者仔细地将各种模态的编码器和对齐器对齐。最初，作者使用大量的图像文本对齐数据集来训练视觉语言模型。这种基础训练使作者能够利用图像文本训练期间开发的视觉能力来进一步训练视频 Projector 。同时，作者还利用自动语音识别（ASR）数据来训练音频语言模型。在这个坚实的基础之上，作者整合了高质量图像、音频和视频数据，以实现全面的多模态对齐。

多任务微调 在多模态微调阶段，作者利用一个由开源、合成和内部标注数据组合而成的多任务跨模态交互训练语料库。作者根据预训练模型是否已经学习到事实知识的标准选择数据，用于最终的监督微调（SFT）阶段。在此阶段，作者实现了一种打包技术，将多个样本拼接在一起，使用flash-attention2的cq_len进行有效的样本隔离。通过这种技术，多个样本可以在计算过程中正确隔离，防止不同样本之间的数据混淆。这种方法加速了训练过程并优化了内存使用。

本文的贡献如下：

介绍了Baichuan-Omni，这是一个开源、高性能的基础性全模态模型，能够同时处理文本、图像、视频和音频输入。它还支持包括英语和汉语在内的多种语言的多语言支持。作者的训练框架包括一个全面的流水线，包括构建全模态训练数据、多模态对齐预训练和多模态监督微调，特别注重增强全模态指令遵循能力。
探索了自然多模态人机交互的初期研究。作者的方法从预测音频输入边界开始，同时 streaming 和编码接收到的视觉数据为特征。这些特征由多模态大语言模型（MLLM）进行动态注意计算处理。在音频输入完成后，相应的特征被输入到MLLM进行推理，从而便于处理音频和视频输入。这种集成方法实现了实时处理并增强了系统的交互能力。
已将Baichuan-Omni模型、训练代码和评估脚本公开发布，旨在促进研究社区内的进步。作为该领域的先驱，作者仍致力于推动多模态基础模型的开发及其互动。

2. 训练

2.1. 高质量的多模态数据

为了训练具有强大能力的全模态模型，作者构建了一个包含高质量文本、图像文本、视频文本、音频文本及其交互的广泛跨模态数据集。

**图像数据**可分为几种类型：描述符图像、交织图像文本、OCR数据和图表数据。从来源上看，它分为开源数据和合成数据。

对于开源数据，作者已经收集了主要的开源数据集，包括PIN-14M，MINT-1T，LAION-5B，OBELIC，等等，用于图像语言分支的第一阶段训练，以及Cauldron，Monkey，ArxivQA，TGDoc，MM-Self-Instruct (Train split) ，MMTable，等等，用于图像语言分支的第二/第三阶段训练。这些公开可用的开源数据集在作者数据 Pipeline 中经过一系列处理步骤和仔细的采样技术。
关于合成数据，其目的是获得更高质量的数据以提升模型的性能。其中一部分数据