SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

828 篇文章

已下架不支持订阅

本文介绍了SPHINX-X,一个基于SPHINX的多模态大语言模型系列。通过架构改进和全面的数据集,提升效率和模型性能。实验表明,多模态性能与数据规模和参数规模密切相关。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models》的翻译。

SPHINX-X:一类多模态大型语言模型的缩放数据和参数

摘要

我们提出了SPHINX-X,这是在SPHINX基础上发展起来的一个广泛的多模态大语言模型(MLLM)系列。为了提高体系结构和训练效率,我们修改了SPHINX框架,删除了冗余的视觉编码器,绕过了带有跳过标记的完全填充的子图像,并将多阶段训练简化为一阶段一体模式。为了充分释放MLLMs的潜力,我们组装了一个全面的多领域和多模态数据集,涵盖语言、视觉和视觉语言任务中的公共资源。我们通过精心策划的OCR密集型和标记集数据集进一步丰富了这一系列,扩展了多样性和通用性。通过在不同的基础LLM上进行训练,包括TinyLlama1.1B、InternetLM2-7B、LLaMA2-13B和Mixtral8×7B,我们获得了一系列参数大小和多语言能力不同的MLM。综合基准测试揭示了多模态性能与数据和参数尺度之间的强相关性。代码和模型发布于https://github.com/Alpha-VLLM/LLaMA2-Accessory.

1 引言

2 相关工作

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值