极市平台 | 首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

最新推荐文章于 2025-04-21 14:02:04 发布

双木的木

最新推荐文章于 2025-04-21 14:02:04 发布

阅读量1.7k

点赞数 10

CC 4.0 BY-SA版权

分类专栏： Transformer专栏深度学习拓展阅读文章标签： transformer 深度学习人工智能算法 nlp 计算机视觉 llama

本文链接：https://blog.youkuaiyun.com/csdn_xmj/article/details/142440174

本文来源公众号“极市平台”，仅用于学术分享，侵权删，干货满满。

原文链接：首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

极市导读

该团队将模型架构调整为 Mamba 和 Transformer 块的混合体，在数据构建中考虑多个图像之间的时间和空间依赖性，并采用渐进式训练策略。提出了首个混合架构多模态大语言模型 LongLLaVA，在效率和性能之间实现了更好的平衡。

本文作者来自于香港中文大学深圳和深圳大数据研究院。其中第一作者为香港中文大学深圳博士生王熙栋和研究助理宋定杰，主要研究方向分别为医疗AGI和多模态学习；博士生陈舒年研究方向为多模态学习，博士生张辰研究方向为高效语言模型。通讯作者为香港中文大学深圳数据科学学院王本友教授。

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果，还保持了高吞吐量和低显存消耗，其可以在单个 A100 80GB GPU 上处理近千张图像，展现出了广阔的应用前景。

论文地址：https://arxiv.org/abs/2409.02889

项目地址：https://github.com/FreedomIntelligence/LongLLaVA

1. 简介

多模态大语言模型（MLLMs）的快速进步展示了它们在各个应用领域中的显著能力。然而，多图像理解场景仍然是一个重要但尚未充分探索的方面。特别是，将 MLLMs 的应用场景扩展到理解更长的视频、更高分辨率的图像以及基于更多历史信息的决策，对于提升用户体验和进一步拓展 MLLMs 的应用范围至关重要。

然而，将 MLLM 的上下文长度扩展以提高其可用性，面临着处理更多图像时性能下降和计算成本高昂的挑战。一些研究专注于构造包含多个图像的长上下文训练数据，以增强性能。其他研究探索了创新性的训练策略，以减轻性能下降。关于高计算成本的问题，LongVILA 通过降低通信成本在提高多节点效率方面取得了进展。然而，在管理更长的上下文时，加速计算这个问题本身仍有待