SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

最新推荐文章于 2025-11-24 16:27:57 发布

UnknownBody

最新推荐文章于 2025-11-24 16:27:57 发布

阅读量281

点赞数

CC 4.0 BY-SA版权

分类专栏： Multimodal 文章标签：语言模型自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137277485

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

Multimodal

164 篇文章

订阅专栏

本文介绍了SPHINX-X，一个基于SPHINX的多模态大语言模型系列。通过架构改进和全面的数据集，提升效率和模型性能。实验表明，多模态性能与数据规模和参数规模密切相关。

本文是LLM系列文章，针对《SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models》的翻译。

摘要

我们提出了SPHINX-X，这是在SPHINX基础上发展起来的一个广泛的多模态大语言模型（MLLM）系列。为了提高体系结构和训练效率，我们修改了SPHINX框架，删除了冗余的视觉编码器，绕过了带有跳过标记的完全填充的子图像，并将多阶段训练简化为一阶段一体模式。为了充分释放MLLMs的潜力，我们组装了一个全面的多领域和多模态数据集，涵盖语言、视觉和视觉语言任务中的公共资源。我们通过精心策划的OCR密集型和标记集数据集进一步丰富了这一系列，扩展了多样性和通用性。通过在不同的基础LLM上进行训练，包括TinyLlama1.1B、InternetLM2-7B、LLaMA2-13B和Mixtral8×7B，我们获得了一系列参数大小和多语言能力不同的MLM。综合基准测试揭示了多模态性能与数据和参数尺度之间的强相关性。代码和模型发布于https://github.com/Alpha-VLLM/LLaMA2-Accessory.