极市平台 | 首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。

原文链接:首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

极市导读

该团队将模型架构调整为 Mamba 和 Transformer 块的混合体,在数据构建中考虑多个图像之间的时间和空间依赖性,并采用渐进式训练策略。提出了首个混合架构多模态大语言模型 LongLLaVA,在效率和性能之间实现了更好的平衡。

本文作者来自于香港中文大学深圳和深圳大数据研究院。其中第一作者为香港中文大学深圳博士生王熙栋和研究助理宋定杰,主要研究方向分别为医疗AGI和多模态学习;博士生陈舒年研究方向为多模态学习,博士生张辰研究方向为高效语言模型。通讯作者为香港中文大学深圳数据科学学院王本友教授。

扩展多模态大语言模型(MLLMs)的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化,包括模型架构、数据构建和训练策略,尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

该团队将模型架构调整为 Mamba 和 Transformer 块的混合体,在数据构建中考虑多个图像之间的时间和空间依赖性,并采用渐进式训练策略。提出了首个混合架构多模态大语言模型 LongLLaVA,在效率和性能之间实现了更好的平衡。

LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果,还保持了高吞吐量和低显存消耗,其可以在单个 A100 80GB GPU 上处理近千张图像,展现出了广阔的应用前景。

论文地址:https://arxiv.org/abs/2409.02889

项目地址:https://github.com/FreedomIntelligence/LongLLaVA

1. 简介

多模态大语言模型(MLLMs)的快速进步展示了它们在各个应用领域中的显著能力。然而,多图像理解场景仍然是一个重要但尚未充分探索的方面。特别是,将 MLLMs 的应用场景扩展到理解更长的视频、更高分辨率的图像以及基于更多历史信息的决策,对于提升用户体验和进一步拓展 MLLMs 的应用范围至关重要。

然而,将 MLLM 的上下文长度扩展以提高其可用性,面临着处理更多图像时性能下降和计算成本高昂的挑战。一些研究专注于构造包含多个图像的长上下文训练数据,以增强性能。其他研究探索了创新性的训练策略,以减轻性能下降。关于高计算成本的问题,LongVILA 通过降低通信成本在提高多节点效率方面取得了进展。然而,在管理更长的上下文时,加速计算这个问题本身仍有待

### MambaTransformer 集成 在现代机器学习领域,Mamba 是一种用于加速 Python 数据科学工作流的包管理器和环境管理系统[^1]。而 Transformer 架构则是自然语言处理和其他序列建模任务中的关键技术。 #### 使用 Mamba 安装 Hugging Face Transformers 库 为了快速设置开发环境并安装最新的 `transformers` 库版本,可以利用 mamba 来创建一个新的 conda 环境: ```bash mamba create -n transformers_env python=3.9 -c conda-forge conda activate transformers_env mamba install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch -c nvidia mamba install transformers datasets -c huggingface -c conda-forge ``` 这段命令不仅会配置好 PyTorch 及其依赖项,还会通过 Conda Forge 渠道获取最新版的 HuggingFace 的 `transformers` 和 `datasets` 工具库。 #### 实践案例:基于Transformers的情感分析应用 一个具体的例子是在情感分类任务上使用预训练好的 BERT 模型。下面是一个简单的 Jupyter Notebook 片段来展示如何加载模型并对输入文本执行预测操作: ```python from transformers import pipeline classifier = pipeline('sentiment-analysis') result = classifier("I love programming with Python!") print(result) ``` 此代码片段展示了怎样简便地调用Hugging Face提供的pipeline接口来进行即时的情感倾向评估。 #### 教程资源链接 对于希望深入理解两者结合使用的开发者来说,在 GitHub 上有一个名为 awesome-LLM-resources 的仓库提供了丰富的资料集合。这里包含了从基础知识到高级项目的各种指南文档以及开源实现样例,非常适合想要探索更多可能性的学习者查阅。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值