还在为多模态大模型(MLLM)的不透明和高昂成本头疼?别慌,网络安全界救星来了!Open-Qwen2VL,一个完全开源的 2B 参数多模态大语言模型,如同平地一声雷,炸醒了整个行业!
这货有多牛?仅用 220 A100-40G GPU 小时,就在学术资源上实现了卓越性能。它就像一位身怀绝技的武林高手,用完全开源和计算高效两大杀器,誓要推动学术界在多模态预训练领域的创新。更重要的是,它用实力证明,即使囊中羞涩,也能通过技术优化实现 SOTA 性能!
Open-Qwen2VL 的核心创新简直让人拍案叫绝:
- 动态图像分辨率调整:预处理阶段压缩至 144 视觉 tokens,微调阶段恢复 729 tokens,就像孙悟空的金箍棒,能大能小,灵活自如!
- 多模态序列打包技术:提升训练效率,让模型跑得更快,更稳!
- 结合 CLIP 和 MLLM-based 的数据筛选方法:确保数据质量,喂给模型都是“绿色有机”的高质量数据!
实验结果更是让人惊掉下巴,Open-Qwen2VL 在 MMBench、SEEDBench 等基准上,竟然超越了部分闭源模型(如 Qwen2-VL-2B)。更令人震惊的是,它的训练数据量仅为后者的 0.36%!这简直就是网络安全界的“四两拨千斤”!
Open-Qwen2VL 通过开源代码、数据和模型,重新定义了多模态 LLM 的 “完全开放” 标准。它就像一把火炬,照亮了网络安全领域多模态研究的未来!
研究背景:多模态大模型,安全领域的未来之星?
多模态大语言模型(MLLMs)在多模态理解和视觉推理方面展现出强大的能力,就像一位全能选手,在图像、图表和 PDF 文档分析中都能大显身手。与那些从零开始,在小规模mage-text caption
数据上训练的传统视觉语言模型(VLMs)不同,MLLMs 通常基于预训练的纯文本 LLM 构建,并在大规模多模态数据上持续“深造”。
然而,当前最先进的 MLLMs 存在两大痛点:
- 不够开放: 核心技术细节闭源,学术界难以复现。
- 成本太高: 计算资源需求巨大,让很多研究机构望而却步。
表1 对比了近期 SOTA 模型 VILA、MM1、Ideflics、BLIP-3、Llama-3.2-Vision、Phi-3.5-Vision 和 Qwen2VL 的开源性,结果让人深思。
研究背景:三大挑战亟待解决!
- 现有多模态 LLM 的局限性
- 开源性不足: 多数 SOTA 模型仅公开模型参数,但数据过滤技术、序列打包脚本、训练代码和完整数据集均闭源,导致学术界难以复现和改进。就像藏着掖着的武功秘籍,让人无法修炼!
- 计算成本高: 主流模型需 1.4T 多模态 token 和大量 GPU 资源,学术机构难以承受。这就像练功需要大量丹药,穷人根本玩不起!
- 数据质量与效率挑战
- 数据过滤: 传统 CLIP-based 方法筛选的数据可能包含噪声,而 MLLM-based 过滤(如 MLM-Filter)能更精准地选择高质量数据。这就像淘金,要用更先进的工具才能淘到真金!
- 序列冗余: 直接填充不同长度的图像-文本数据会导致大量无效计算,需高效的序列打包策略。这就像打包行李,要合理利用空间,才能装更多东西!
- 学术研究的需求
- 学术界缺乏公开的多模态预训练框架,难以开展数据和算法创新,需低成本、可复现的解决方案。这就像缺少趁手的兵器,难以施展拳脚!
研究目标:三大目标,引领未来!
- 实现完全开源的多模态 LLM
- 提出 Open-Qwen2VL,一个 20 亿参数的 MLLM。公开训练代码、数据过滤细节、预训练数据(29M 图像-文本对)和模型参数,重新定义“完全开源”标准(代码、数据、技术细节三者透明)。这就像把所有武功秘籍都公之于众,让大家一起进步!
- 提升计算与数据效率
- 动态图像分辨率: 采用压缩视觉投影仪将 729 个图像块缩至 144 个视觉 token,并通过多模态序列打包进一步提升预训练效率,减少计算量。这就像优化内功心法,提升修炼速度!
- 多模态序列打包: 通过 FFD 算法优化数据分组,降低填充率,提升训练吞吐量。这就像优化训练计划,提高训练效率!
- 在有限资源下超越闭源模型
- Open-Qwen2VL 在约 50 亿高质量描述数据 token 上预训练,仅为 Qwen2-VL 1.4 万亿多模态 token 的 0.36%。这种显著的数据效率使能够在学术级计算资源(8×A100-40G GPU)上完成预训练。这就像用更少的资源,创造更大的价值!
- 仅用 220 A100-40G GPU 小时(Qwen2-VL 的 0.36% 计算量),在 MMBench、SEEDBench 等基准上超越部分闭源模型(如 Qwen2-VL-2B)。这就像以弱胜强,创造奇迹!
关键创新点:三大法宝,战力爆表!
- 数据混合策略: 结合 CLIP 和 MLLM(MLM-Filter)过滤技术,提升数据质量。就像炼丹,要用最好的药材才能炼出好丹!
- 架构优化: 冻结视觉编码器,仅训练投影仪和 LLM 参数,节省计算资源。这就像集中火力,攻击关键目标!
- 训练框架: 基于 FSDP 的高效分布式训练,比 DeepSpeed-Zero3 快 17%。这就像使用更先进的武器,提升战斗力!
相关研究工作:站在巨人的肩膀上!
开源多模态大语言模型
像 GPT - 4o 和 Claude - 3.7 - Sonnet 这类闭源的多模态大语言模型(MLLM),具备强大的多模态理解和推理能力。为了复现这些闭源 MLLM 的强大能力,来自工业界的研究团队开发了部分开源的高性能 MLLM,例如 InternVL - 2.5 、DeepSeek - VL2 和 Qwen2.5 - VL ,它们能够达到与闭源模型相当的能力。然而,这些模型的训练数据、代码库以及数据过滤细节并未开源,难以进行复现。
大规模图像文本数据
从 ImageNet 开始,大规模图像数据集极大地推动了计算机视觉和多模态基础模型的发展。MSCOCO 、SBU 、Conceptual Captions (CC) 等数据集将图像数据集的规模提升到了接近百万级别,显著提高了视觉语言模型(VLM)的图像描述性能。OpenAI 利用 4 亿网络图像数据预训练了对比视觉语言模型 CLIP,但未公布这些数据。随后,LAION - 400M 和 COYO - 700M 等开源项目将图像文本数据集的规模进一步扩大到数亿级别。接着,LAION - 5B 和 DataComp - commonpool - 12.8B 更是将图像文本数据集的规模扩展到数十亿级别,以支持数据密集型的 MLLM 预训练。大多数先进的 MLLM,如 DeepSeek - VL 、Qwen - VL 、Intern - VL 、SAIL 等,都构建和筛选了自己的大规模图像文本数据集,数据量超过 100 亿,但这些数据集并未向公众开放用于研究。
高质量图像文本数据过滤
除了构建图像文本数据集时传统的基于规则或启发式的数据过滤方法外,用于训练对比视觉语言模型的更大规模的图像文本数据集采用了基于 CLIPScore 的过滤方法来筛选高质量数据。LAION - 400M 使用 OpenAI - CLIP 模型设置了严格的过滤阈值来筛选数据。后来,DataComp 成为第一个有效评估每种数据过滤方法在为 CLIP 预训练选择高质量数据方面效果的基准。各种方法 [33, 47, 51] 尝试将 CLIPScore 过滤与其他指标相结合,以在 DataComp 上获得更好的过滤性能,而 DFN 则直接扩大基于 CLIP 的数据过滤模型规模,取得了顶尖的性能。此外,另一类基于高效 MLLM [18, 46] 的数据过滤方法也应运而生,在为 MLLM 预训练选择高质量数据方面表现出了更好的能力。
方法:Open-Qwen2VL 的炼成之路!
Compute-Efficient Multimodal Pre-Training:高效多模态预训练!
数据集选择与高质量数据过滤:精挑细选,优中选优!
当前先进的多模态大语言模型通常在大规模图像-文本描述数据集上持续预训练。除图像-文本描述数据外,部分最新模型(如 VILA、MM1、DeepSeek-VL2)还将图像-文本交错数据与描述数据混合用于多模态预训练。混合描述数据和交错数据可增强模型的多模态上下文学习和多图像推理能力,但 MM1 表明,引入图像-文本交错文档会降低基础模型的零样本单图像推理能力。因此,为控制数据规模并确保预训练效率,Open-Qwen2VL 仅聚焦于图像-文本描述数据的预训练范式。
为便于社区复现,选择表 2 中 4 种最常用的图像-文本描述数据集:
- CCS: BLIP-1 基于 CLIP 过滤 CC3M-CC12M-SBU(CCS)数据得到的 850 万高质量描述对。
- LAION-CLIP: LAION400M 通过 CLIP 图像-文本余弦相似度阈值 0.3 筛选的 1500 万数据(本研究仅下载 150 万用于消融实验)。
- DataComp-DFN: 基于 DataComp-Medium 数据集,使用 Data-Filtering Network(DFN)模型筛选的前 15% 数据(共 150 万对)。
- DataComp-MLM-Filter & DFN: 通过 MLM-Filter 模型(SU 指标≥85)和 DFN 联合筛选的 1990 万高质量数据。
数据处理细节:
- CCS 与 LAION: 基于 BLIP 和 img2dataset 工具下载图像,短边固定为 512 像素(保持宽高比)。
- DataComp-DFN: 从原始 1.28 亿数据中下载 99.8%(约 1.27 亿),通过官方脚本按 DFN 发布的前 15% 索引提取 150 万数据。
-
DataComp-MLM-Filter & DFN: 使用 mlm-filter-qwen2.5-1.5b-gpt4o 模型生成 SU 质量分数(阈值 85),与 DFN 数据合并后去重得到 1990 万对。
表2 展示了各数据集的过滤方法、数据量及来源,其中第四组通过 MLLM 和 CLIP 联合过滤,显著提升了数据质量。
低到高动态图像分辨率的模型架构:小身材,大能量!
采用了基于 Qwen2.5-1.5B-Instruct 语言模型主干、自适应平均池化视觉投影仪和 SigLIP-SO-400M 视觉编码器的简洁架构。具体而言,自适应平均池化视觉投影仪包含一个自适应平均池化层和一个两层的多层感知器(MLP)。通过该池化层,可以将 SigLIP 输出的 729 个视觉 patch 调整为任意分辨率。在预训练阶段,采用 144 个视觉标记表示单张图像,并在监督微调(SFT)阶段将分辨率提升至标准的 729 个视觉标记。这种低到高的动态图像分辨率策略显著提升了多模态大模型的预训练效率,且不会损害最终模型在 SFT 阶段对高分辨率图像的理解能力。
Open-Qwen2VL 未采用 2D 多模态旋转位置编码和动态分辨率等复杂设计,以节省计算资源并确保训练效率。此外,学术机构通常缺乏存储原始分辨率图像的磁盘空间,因此在使用 img2dataset 下载数据时,将图像短边缩放到 512 像素并保持宽高比,这使得预训练阶段无法采用传统动态分辨率方法。
在预训练和 SFT 阶段,冻结视觉编码器参数,仅训练投影仪和语言模型主干参数以进一步节省计算资源。尽管近期研究[44,54]表明训练视觉编码器参数可提升模型视觉理解能力,但受限于计算资源,将其作为消融实验留待后续研究。
模型架构如图 1 所示,预训练阶段通过平均池化层将 729 个图像 patch 压缩为 144 个视觉标记,SFT 阶段则直接映射至 729 个标记。这种设计在保持模型性能的同时,显著降低了预训练阶段的显存占用和计算开销。
2.3. 多模态序列打包(Multimodal Sequence Packing):化零为整,效率倍增!
由于大规模图文数据的长度差异较大,直接按长度分批次并填充到最长序列会导致每个训练批次中存在大量填充令牌。这种高比例的填充令牌会造成显著的计算浪费和训练效率低下。因此,提出多模态序列打包技术,将图文数据重新组合为最接近 4096 上下文长度的序列组。
算法 1 展示了多模态序列打包的具体流程。由于将所有图文数据下载并打包为 WebDataset 格式(每个 tar 文件包含 10k 图文对),该打包算法旨在将每组 10k 数据重新组织为多个 4096 上下文长度的多模态序列。
该技术包含三个核心步骤:计算每个图文样本的多模态长度、将数据重新分组为总长度最接近 4096 的多个 bin、以及拼接输入 ID 向量和 PIL 格式图像。采用首次适应递减(FFD)装箱算法将每个图文样本分配到 bin 中,并遵循 LLaVA 的做法在每张图像文本起始处插入<image>
占位符令牌,使用默认的 <|im_end|>
令牌作为图像文本分隔符。
将每个打包后的多模态序列存储为 pickle 文件,因其支持在单个文件中存储不同格式的数据(如 PIL 图像和 PyTorch 输入 ID 张量)。最终,每个 pickle 文件包含以下字典信息:
- "images":PIL 图像对象列表
- "input_ids":带图像占位符令牌的 PyTorch Long 张量
- "lengths":记录每个图文样本多模态长度的整数列表
这种序列打包技术通过动态组合不同长度的图文数据,使每个训练批次的有效令牌比例提升 37%,显著降低了计算资源浪费,为学术机构在有限算力下开展多模态预训练提供了关键技术支撑。
2.4. 训练基础设施与代码库:工欲善其事,必先利其器!
基于 Prismatic-VLM 开发了训练代码库。原代码库仅支持单图像指令的监督微调,对其数据加载器和批次准备流程进行了深度改造,使其能够处理包含多图像的多模态打包序列。保留了其全分片分布式并行(torch-FSDP)训练器,发现该实现相较于使用 DeepSpeed-Zero3 的 LLaVA 代码库,每个训练步骤速度提升约 17%。尽管 FSDP 和 DeepSpeed-Zero3 采用相同的模型分片算法,但的 FSDP 实现与 Karamcheti 等人的研究结论一致,展现出更高的训练效率。
该代码库支持从数据准备到模型部署的全流程:
- 数据流水线: 集成 img2dataset 实现大规模图像下载,支持多模态数据过滤、质量评分生成和 WebDataset 格式打包
- 分布式训练: 基于 FSDP 实现高效显存利用,支持 8xA100-40G GPU 集群训练
- 多模态处理: 创新设计多图像序列打包算法,动态组合不同长度的图文数据
- 评估框架: 集成 MMBench、SEEDBench 等多模态基准测试工具
通过该开源代码库,学术机构可在有限算力条件下复现完整的多模态大模型训练流程。的代码实现已通过严格测试,在 8 卡 A100 环境下,预训练阶段吞吐量达 21.5 token/s per GPU,SFT 阶段达 18.7 token/s per GPU,显著优于同类开源方案。
2.5. 数据混合策略的消融实验:数据配比,精益求精!
在完成四个图文数据集的筛选和序列打包后,开展消融实验以探究不同数据组合对最终多模态大模型性能的影响。由于四个数据集存在 16 种组合方式,仅选取四种代表性组合进行研究:固定 CCS-CLIP 数据集,逐步加入其他三个数据集。每组实验均基于打包后的多模态序列进行单轮预训练,随后在 LLaVA-665k 指令数据集上进行微调。具体训练细节和超参数见附录表 7。在 AI2D-test、TextVQA-val、POPE、MMMU-val、MMBench-v1.0-dev、SEEDBench-imge-dev、MMStar 和 MathVista-test-mini 等多模态基准上对模型进行评估。
实验结果: 表 3 展示了不同数据组合训练的模型在微调后的基准性能。由于 DataComp-DFN 和 LAION 均为网络爬取数据且采用相似的 CLIP-based 筛选方法,这两个数据集与 CCS 组合的模型性能相近。值得注意的是,简单混合 CCS-CLIP、DataComp-DFN 和 LAION-CLIP 三个数据集并未提升性能,可能由于 DataComp-DFN 与 LAION-CLIP 数据存在较高同质性。令人惊喜的是,加入少量(5M)由不同高效多模态模型(MLM-Filter)筛选的高质量数据,可使平均性能提升 0.5 个百分点。推测基于 MLLM 的数据过滤器能引入差异化数据分布,为模型带来新的知识增量。
最终,Open-Qwen2VL 在最优数据组合上的预训练耗时约 220 A100-40G GPU 小时,基于 LLaVA-665k 指令的微调耗时 48 A100-40G GPU 小时。该结果验证了高效数据筛选和合理数据组合对提升模型训练效率的关键作用。
3. 监督微调的规模扩展:精雕细琢,更上一层楼!
3.1 监督微调数据集
在完成预训练数据混合的消融实验后,进一步将视觉监督微调(SFT)的数据规模从 LLaVA - 665k 扩展到了 MAmmoTH - VL - 10M ,以此来增强多模态大模型(MLLM)的理解和推理能力。仅采用了 10M 单图像子集进行视觉 SFT,并未纳入额外的 LLaVA - OneVision - 2M 数据用于混合图像和视频数据的进一步 SFT。
若使用原始的 LLaVA 风格数据加载器在分布式多进程环境下将完整的 10M JSON 文件数据加载到内存中,MAmmoTH - VL - 10M 数据需要超过 200GB 的 CPU 内存。为了适应服务器有限的CPU内存,将 10M 完整 JSON 数据中的每个数据样本存储为单独的 JSON 文件,同时生成一个 10M 索引文件用于加载到内存中。每个索引包含数据样本 JSON 的路径、数据是纯文本还是图文的布尔值,以及预先计算好的图文数据长度,以便进行批处理。SFT 的超参数也遵循附录表 7 的设置。
3.2 扩展效果与结果
每训练 2M 条指令就保存一次检查点,在批量大小为 128 的情况下,这相当于 15625 步。图 2 展示了每个保存的检查点在基准测试中的性能表现。可以得出结论,扩大 SFT 的规模能够显著提高模型在各种多模态基准测试中的性能。像 POPE、MMMU、MMBench 和 SEEDBench 等大多数基准测试的性能在 SFT 规模达到 8M 条指令时就趋于稳定,后续再增加 2M 数据也没有进一步的提升。
TextVQA 和 MathVista 的性能曲线与其他基准测试有所不同,它们随着数据规模的增加呈现出稳定的提升趋势。这可能是因为精心筛选的预训练 caption 数据中缺乏数学或 OCR 相关的数据,使得视觉数学推理和基于文本的 VQA 成为
*************************************2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享***************************************
一、2025最新大模型学习路线
一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。
L1级别:AI大模型时代的华丽登场
L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。
L2级别:AI大模型RAG应用开发工程
L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3级别:大模型Agent应用架构进阶实践
L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。
L4级别:大模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
二、大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
三、大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
四、大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
五、大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
*************************************2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享*************************************