不到4B的多模态大语言模型Mini-InternVL:能快速迁移到自动驾驶的口袋多模态模型

Abstract

多模态大语言模型(MLLMs)在视觉-语言任务中表现出色,涵盖了广泛的领域。然而,大规模模型和高计算成本给在消费级GPU或边缘设备上的训练和部署带来了巨大挑战,从而阻碍了其广泛应用。为了解决这个问题,我们推出了Mini-InternVL,一系列参数在1B到4B之间的多模态大语言模型,其性能可达90%,但参数量仅为5%。这种显著的效率和效果提升,使我们的模型在各种实际场景中更加易于使用和应用。为了进一步推动我们的模型普及,我们开发了一个统一的适配框架,使Mini-InternVL能够迁移并在下游任务(包括自动驾驶、医学图像和遥感)中超过专用模型。我们相信我们的研究能够为高效且有效的多模态大语言模型的发展提供宝贵的见解和资源。

项目地址:https://github.com/OpenGVLab/InternVL

 欢迎加入自动驾驶实战群

Introduction

近年来,多模态大语言模型(MLLMs)取得了显著进展,利用预训练的大语言模型(LLMs)与视觉基础模型(VFMs)的强大功能相结合,通过大量图像-文本数据的多阶段训练,成功对齐了视觉表示与LLMs的潜在空间。这使得它们在通用的视觉-语言理解、推理和交互任务中表现出色。然而,模型计算负担大且在长尾领域特定任务上的表现不佳,限制了MLLMs在实际场景中的广泛应用。

轻量级MLLMs的出现为参数规模和性能之间提供了良好的平衡,缓解了对昂贵计算设备的依赖,促进了各种下游应用的发展。然而,现有模型面临诸多挑战:1)现有MLLMs使用的视觉编码器大多是基于互联网领域图像-文本数据训练的,无法涵盖广泛的视觉领域,且与LLMs的表示不一致;2)现有方法在适应特定领域时主要集中在修改模型架构、收集大量相关训练数据或为目标领域定制训练过程,但尚无一致的LLMs下游适配框架。不同领域的模型设计、数据格式和训练计划各异。

为了应对这些问题,迫切需要一个具有综合视觉知识的强大视觉编码器以及一个允许以低边际成本在各个下游任务中高效应用的通用迁移学习范式。

在本研究中,我们提出了Mini-InternVL,一系列强大的“口袋版”多模态大语言模型,能够轻松迁移到各种特定领域。首先,我们增强了轻量级视觉编码器的表示能力。我们初始化了一个300M视觉编码器,使用CLIP的权重并通过InternViT-6B作为教师模型进行知识蒸馏。随后,我们开发了Mini-InternVL系列,其参数规模为1B、2B和4B,分别与Qwen2-0.5B、InternLM2-1.8B和Phi-3-Mini等预训练LLMs集成。凭借稳健的视觉编码器,Mini-InternVL在MMBench、ChartQA和MathVista等通用多模态基准测试中表现出色。值得注意的是,与InternVL2-76B相比,Mini-InternVL-4B以5%的参数实现了90%的性能,显著减少了计算开销。

为了进一步将我们的模型适应特定领域的下游任务,我们提出了一个简单而有效的迁移学习范式,适用于包括自动驾驶、医学图像和遥感在内的各种下游任务。该方法标准化了模型架构、数据格式和训练计划。结果表明,在特定领域中,该方法有效增强了模型的视觉理解和推理能力,使其能够匹敌商业专有模型。

3.Method

在这一部分,我们介绍了 Mini-InternVL,一系列轻量级的多模态大语言模型(ML

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值