Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

最新推荐文章于 2025-11-25 02:37:03 发布

UnknownBody

最新推荐文章于 2025-11-25 02:37:03 发布

阅读量177

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型计算机视觉

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134579991

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了Mirasol3B模型，该模型针对时间同步和上下文多模态数据，采用自回归组件分别处理视频、音频和文本。通过将视频和音频序列分段并联合建模，有效解决长序列计算难题，同时在保持模型规模不变的情况下处理512帧，性能超越SOTA。

本文是LLM系列文章，针对《Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities》的翻译。

摘要

多模态学习的主要挑战之一是需要结合异构模态（例如，视频、音频、文本）。例如，视频和音频以比文本高得多的速率获得，并且在时间上大致对齐。它们通常与文本不同步，文本作为全局上下文出现，例如标题或描述。此外，视频和音频输入的量要大得多，并且随着视频长度的增加而增长，这自然需要更多的计算专门用于这些模态，并使长程依赖关系的建模变得更加困难。
在这里，我们将多模态建模解耦，将其划分为单独的、集中的自回归模型，根据模态的特征处理输入。我们提出了一种称为Mirasol3B的多模式模型，该模型由时间同步模态（音频和视频）的自回归分量和上下文模态的自回归组件组成，上下文模态不一定在时间上对齐，但仍然是连续的。为了解决视频-音频输入的长序列问题，我们建议将视频和音频序列进一步划分为连续的片段，并自回归处理它们的表示。为此，我们提出了一种组合器机制，该机制在一个时间框架内对音频-视频信息进行联合建模。组合器学习从原始时空信号中提取音频和视频特征，然后学习融合这些特征，为每个片段生成紧凑但富有表现力的表示。
我们的方法在建立良好的多模式基准上达到了最先进的水平，优于更大的模型。它通过学习紧凑表示、控制音频-视频特征表示的序列长度以及及时建模其相关性，有效地解决了媒体输入的高计算需求。