LLaVA-OneVision-1.5横空出世:开源多模态训练全流程开放框架实现技术普及化

自2023年LLaVA首次亮相以来,这一突破性模型便以低成本对齐策略重新定义了开源多模态领域的发展路径。通过创新性地连接视觉编码器与大语言模型,LLaVA成功将"图像感知-语义理解-自然对话"的端到端能力带入开放生态,不仅显著缩短了与闭源商业模型的性能差距,更标志着多模态AI技术普及化的关键转折点。从最初以高效对齐机制打通视觉-语言交互通道,到LLaVA-1.5版本凭借大规模洁净数据与高分辨率输入实现理解能力跃升,再到LLaVA-NeXT系列拓展OCR识别、数理推理及跨场景应用,开源社区见证了多模态技术的持续进化。随后衍生的视频处理分支LLaVA-NeXT-Video与多图文交互模型LLaVA-NeXT-Interleave,进一步完善了时序动态理解与跨媒介推理能力,最终在LLaVA-OneVision架构中实现统一接口整合,全面覆盖图像、文档、图表、多图关联及视频分析等多元场景,达成效果与效率的双重优化。

【免费下载链接】LLaVA-One-Vision-1.5-Mid-Training-85M 【免费下载链接】LLaVA-One-Vision-1.5-Mid-Training-85M 项目地址: https://ai.gitcode.com/hf_mirrors/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

尽管当前多模态技术在接口设计与架构选型上逐渐形成共识,但真正可复现的开源研发路径仍与"仅开放模型权重"的现状存在显著落差。以Qwen2.5-VL和InternVL3.5为代表的先进模型,虽在OCR精度、文档解析、数理推理及跨图关联等核心能力上树立新基准,但其完整的数据构建清单、清洗流程、混合比例控制,以及对齐策略、采样方法和训练日程安排等关键细节多为部分披露,导致社区难以实现端到端的复现与优化。Molmo模型通过更严谨的数据处理流水线与精细化设计,在多项评测基准与人类偏好测试中逼近闭源模型性能;Open-Qwen2VL则证明在高效训练范式下,即使原始多模态token占比降低仍能取得竞争力表现。这些进展揭示出当前领域的核心挑战在于"训练配方与工程细节的可复现性",而非单一模型架构的选择差异。

针对这一行业痛点,灵感实验室联合LMMs-Lab团队以"高性能-低成本-强复现"为核心目标,在LLaVA-OneVision体系基础上推出全链路开放的创新方案。该方案包含概念均衡的8500万规模预训练数据集(LLaVA-OV-1.5-Mid-Training-85M)与精心筛选的2200万指令微调数据集(LLaVA-OV-1.5-Instruct-22M),并沿用经过验证的紧凑三阶段训练流程:语言-图像基础对齐(Stage-1)、概念均衡与高质量知识注入(Stage-1.5)、指令微调优化(Stage-2)。通过创新的离线并行数据打包技术(实现最高约11倍padding压缩率)与Megatron-LM分布式训练框架的深度整合,团队成功将80亿参数规模视觉语言模型的Stage-1.5预训练阶段,在128张A800 GPU集群上压缩至约4天完成,整体训练预算控制在1.6万美元区间,大幅降低了先进多模态模型的研发门槛。

在此基础上正式发布的LLaVA-OneVision-1.5模型,全面继承并扩展LLaVA系列的技术优势:创新性引入RICE-ViT视觉编码器,原生支持高分辨率输入与区域级细粒度语义建模,显著强化图表解析、文档理解与结构化场景认知能力;延续紧凑三阶段训练范式以避免冗长的课程学习设计,确保训练过程的高效可控;构建并严格遵循"质量-覆盖-均衡"三合一的数据构建原则,形成8500万预训练样本与2200万指令数据的优质资源库;更关键的是实现全链条研发过程的透明开放,涵盖完整数据集、训练与数据打包工具链、配置脚本、训练日志及可复现评测命令与执行细节,确保社区能够以低成本实现复现验证与创新拓展。实验结果表明,LLaVA-OneVision在多项公开多模态评测基准上展现出与Qwen2.5-VL相竞争乃至更优的性能表现(详见技术报告全文)。

LLaVA-OneVision-1.5的训练数据体系包含两大核心组件:用于通用视觉语言预训练的8500万样本集与2200万指令微调数据集。其中8500万预训练数据通过融合COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M等八大异构数据源,构建包含约2000万中文与6500万英文图文对的多语言基础资源库。为解决传统数据构建中普遍存在的长尾概念稀疏与原始caption噪声/缺失问题,研发团队创新性采用特征驱动的"概念均衡"策略:利用MetaCLIP编码器将全部图像与50万规模概念词表映射至共享向量空间,为每张图像检索最相似的Top-K概念词,通过统计概念频次分布实施逆频加权重采样机制,有效抑制高频背景类别干扰,同时显著提升罕见细粒度实体、属性特征与场景描述的覆盖比例,大幅平坦化数据分布的长尾特征;随后采用高质量Captioner生成精确对齐的中英文增强描述,进一步优化数据质量。系统实验验证,在相同或更低的token预算约束下,扩大高质量数据规模并结合概念均衡采样策略,可在多模态理解准确性、长尾概念识别率与指令泛化能力等核心指标上实现显著且可复现的性能提升。指令微调数据集则通过多源聚合、格式统一、指令重写、双语互转、模板去同质化与安全过滤六大流程,构建覆盖Caption生成、图表解析、代码与数学推理、领域特定任务、通用视觉问答、区域定位与计数、OCR识别、科学知识问答等八大类别的2200万样本集合,其中叠加FineVision数据集后性能获得进一步增益。

在模型架构与训练策略方面,LLaVA-OneVision-1.5实现多项关键创新。视觉编码器层面,团队自研的MVT v1.5(RICE-ViT)架构针对传统CLIP/SigLIP类模型"单实例仅用单一全局向量"的结构性瓶颈,创新性引入统一的Region Cluster Discrimination机制。该机制在4.5亿图像与24亿候选区域上进行预训练,通过区域聚类判别与区域感知注意力机制显式建模局部实体、文本块与上下文关系,并结合2D旋转位置编码(2D RoPE)实现多分辨率输入的原生支持。与SigLIP2依赖多套专用损失函数(SILC、TIPS、LocCa等)的复杂设计不同,RICE-ViT采用单一聚类判别范式同时强化通用语义理解、OCR精确识别与空间定位能力,使训练与推理链路更简洁高效,可维护性显著提升。在多模态融合阶段,通过轻量级投影层与后续全参数联合训练,将这一细粒度语义底座无缝接入语言模型,减少冗余适配模块并提升跨任务迁移效率。

训练流程采用经过优化的三阶段学习框架:Stage-1阶段使用LLaVA-1.5的558K数据集专注训练视觉投影层,将视觉编码器输出精确映射至语言模型词嵌入空间,通过严格控制参数更新范围实现快速稳定收敛;Stage-1.5阶段在概念均衡的8500万预训练数据上进行全参数训练,系统性注入广域视觉语义与世界知识,强调数据质量与覆盖广度而非盲目扩张token规模;Stage-2阶段基于2200万指令数据与FineVision等多源视觉指令语料继续全参数训练,重点提升任务泛化能力、复杂推理组织与响应格式控制精度。

为解决多模态训练中样本长度差异导致的padding浪费问题,团队开发离线并行数据打包技术:首先按样本长度或长度区间进行哈希桶聚类,大幅降低全局排序与扫描成本;随后在数据准备阶段通过多线程并行处理,将多条短样本智能拼接为接近目标长度的定长序列。该流程一次性完成全量语料处理,具备完全确定性与可复现性,有效避免在线动态打包引入的运行时不稳定与额外CPU开销。在8500万规模的预训练样本上,相比原始处理方案实现最高约11倍的padding有效压缩(定义为:原始方案总padding token数 / 打包后总padding token数),显著提升计算资源利用率。

训练系统层面,LLaVA-OneVision-1.5采用混合并行与长上下文高效训练策略:通过张量并行(TP)、流水并行(PP)、序列/上下文并行(Sequence/Context Parallel)与分布式优化器的协同设计,在大规模集群中同时提升算力利用率与显存效率;同时创新性采用原生分辨率输入策略,完整保留图表、文档与密集文本区域的结构细节,避免统一缩放造成的信息损失。在128×A800 GPU集群上,80亿参数模型的Stage-1.5阶段(处理8500万样本、保持原生分辨率)仅需约3.7天完成,实现训练吞吐与成本控制的最佳平衡。

LLaVA-OneVision-1.5的研发实践充分证明:依托概念均衡的8500万预训练数据与高质量指令数据集,结合RICE-ViT细粒度视觉底座和紧凑的三阶段训练策略(基础对齐-高质量知识注入-指令泛化优化),配合离线并行数据打包(最高约11倍padding压缩)与混合并行/原生分辨率等工程优化,80亿参数规模模型即可在更低的token消耗与算力成本下,对标乃至部分超越当前主流开源模型与部分闭源多模态模型,充分彰显"高质量结构化数据+系统效率协同"相较于单纯规模堆砌的显著优势。尤为重要的是,这一成果通过完整开放数据资源、工具链、配置脚本、训练日志与评测配方,构建了清晰可复现的研发路径,所有依赖项明确可控,社区无需复杂调参即可完整复现训练流程。这种全链路透明的开放模式,不仅为多模态技术的普及化发展提供坚实基础,更为行业树立了可信赖的开源研发新标杆。

论文标题:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training 代码地址:https://gitcode.com/hf_mirrors/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M 技术报告地址:https://arxiv.org/abs/2509.23661 数据/模型地址:https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713 Demo:https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

【免费下载链接】LLaVA-One-Vision-1.5-Mid-Training-85M 【免费下载链接】LLaVA-One-Vision-1.5-Mid-Training-85M 项目地址: https://ai.gitcode.com/hf_mirrors/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值