BAGEL:统一多模态推理大模型,接近GPT-4o

BAGEL:统一多模态推理大模型的创新突破

作者 | 欠阿贝尔两块钱 来源 | AIGC面面观

 原文链接:https://mp.weixin.qq.com/s/lVTu0s4oDitArV4eqvwRMg

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

paper:https://arxiv.org/pdf/2505.14683
code:https://github.com/bytedance-seed/BAGEL

主要贡献

1.开源统一多模态基础模型:BAGEL作为首个支持多模态理解与生成的开源统一模型,通过大规模交错多模态数据(文本、图像、视频、网页)预训练,展示了复杂推理的涌现能力
2.架构创新:采用全新的混合专家架构(Mixture-of-Transformer-Experts, MoT),通过共享自注意力机制实现长上下文多模态交互,显著提升了生成与理解的协同能力
3.涌现能力:首次在多模态统一模型中观察到涌现特性(如自由形式图像编辑、长上下文推理),并通过IntelligentBench量化评估这些能力。

当前痛点

1.数据局限:现有统一模型主要依赖图文配对数据,缺乏结构化多模态交错数据(如视频、网页),导致复杂推理能力不足
2.架构瓶颈:传统模型通过外部扩散模块或量化自回归方法引入生成与理解模块间的信息瓶颈,限制长上下文交互能力
3. 评估不足:传统基准(如MME、MMBench)无法有效评估复杂多模态推理任务(如自由形式图像编辑、世界导航)

核心方法

1.数据构建策略:

  • 多源数据整合:融合视频(Koala36M、MVImgNet2.0)和网页(OmniCorpus)数据,覆盖时空动态与跨模态交互信号。

  • 交错数据构建:通过视频帧间描述生成和网页“描述优先”策略(caption-first)增强局部语义对齐,优化生成一致性。

交错数据构建流程。(a)我们通过预处理和过滤原始视频构建交错视频数据,然后使用从大型 VLM 的有限输出中提炼出的小型 VLM 生成基于时间的字幕。(b)对于网络数据,基于 OmniCorpus [39] 进行构建,并执行两阶段主题选择,然后进行质量过滤和字幕生成,以生成结构化序列

2.混合专家架构设计(MoT)

共享机制
采用Mixture-of-Transformers(MoT)架构,包含独立的多模态理解专家(Handling text & ViT tokens)和生成专家(Handling VAE tokens)。两者通过共享自注意力层实现上下文交互,但在前馈网络(FFN)和参数空间完全解耦。采用两个不同的编码器,分别捕获语义内容和低级像素信息,用于图像理解和生成任务
视觉编码双通道

  • 理解编码器基于SigLIP2-so400m/14的ViT编码器,支持原生分辨率输入(最高980×980)和动态长宽比处理(NaViT技术)。

  • 生成编码器冻结的FLUX VAE编码器,将图像映射到潜在空间(下采样率8×8),并通过2×2 patch嵌入对齐LLM隐空间维度。

多阶段训练策略

四阶段优化

对齐阶段固定ViT和LLM,仅训练MLP连接器,使用固定分辨率图像-文本对进行图像描述学习。
预训练阶段引入QK-Norm稳定训练,混合文本、图像-文本对、网页及视频交错数据(共2.5T tokens),采用原生分辨率策略。
持续训练阶段提升视觉分辨率至1024×1024,增加交错数据比例至40%,强化跨模态推理能力(2.6T tokens)。
监督微调阶段:构建高质量生成/理解子集(72.7B tokens),应用动态噪声调度(timestep 1.0→4.0)适配高分辨率生成
动态平衡策略
数据采样:生成数据采样比例优化至80%(vs理解数据20%),通过损失曲线分析确定最优混合比例(图5)。

不同数据比例的损失曲线,消融实验在 1.5B LLM 上进行。“1g1u”表示生成和理解数据的采样率设置为 1:1。

学习率调度分离MSE(生成)和CE(理解)损失权重,使用分层学习率(生成任务lr=3e-5,理解任务lr=1e-5)缓解优化冲突。

不同学习率的损失曲线

生成架构创新

Rectified Flow生成器替代传统扩散模型,采用ODE-based的直线轨迹建模,通过单步噪声预测实现高效采样(NFE=1)。VAE潜在空间嵌入扩散时间步编码,直接注入初始隐状态而非AdaLN模块
广义因果注意力机制使用FlexAttention实现动态KV缓存:生成时允许后续模态关注VAE/ViT tokens,而屏蔽噪声VAE tokens

关键实验

  1. 多模态理解

  • 在MMMU和MM-Vet上分别以14.3和17.1分超越Janus-Pro,显示MoT设计在任务冲突缓解上的优势。

  • 图像生成

    • GenEval得分88%,优于FLUX-1-dev(82%)和SD3-Medium(74%);WISE基准表现接近GPT-4o

  • 图像编辑

    • GEdit-Bench得分与专业编辑模型Step1X-Edit持平,IntelligentBench得分44.9,显著优于开源模型。

  • 涌现能力验证

    • 训练至3.5T tokens后,Intelligent Editing得分从15提升至45,显示复杂推理能力的涌现。

    BAGEL 在不同任务上的预训练性能曲线。较浅的区域表示低分辨率预训练阶段,较暗的区域表示高分辨率 CT 阶段。随着训练 token 数量的增加,BAGEL 表现出持续的性能提升
    BAGEL 的训练方法。多模态交错数据以灰色突出显示
    在 GEdit-Bench 上进行比较。所有指标均报告为“越高越好”(↑)。G_SC、G_PQ 和 G_O 指的是 GPT-4.1 评估的指标。
    与视觉理解基准的最新成果进行比较。MME-S 是对 MME-P 和 MME-C 的总结

    结论

    1. 统一预训练的有效性通过交错多模态数据与MoT架构,BAGEL在理解和生成任务上实现协同优化,并涌现出世界建模与长上下文推理能力。

    2. 扩展潜力模型规模(1.5B→7B)与数据规模(3.5T→6T tokens)的进一步扩展可释放更强涌现能力。

    既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,下次再见

    自动驾驶之心

    论文辅导来啦

    知识星球交流社区

    近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

    独家专业课程

    端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

    学习官网:www.zdjszx.com

内容概要:本文围绕EKF SLAM(扩展卡尔曼滤波同步定位与地图构建)的性能展开多项对比实验研究,重点分析在稀疏与稠密landmark环境下、预测与更新步骤同时进行与非同时进行的情况下的系统性能差异,并进一步探讨EKF SLAM在有色噪声干扰下的鲁棒性表现。实验考虑了不确定性因素的影响,旨在评估不同条件下算法的定位精度与地图构建质量,为实际应用中EKF SLAM的优化提供依据。文档还提及多智能体系统在遭受DoS攻击下的弹性控制研究,但核心内容聚焦于SLAM算法的性能测试与分析。; 适合人群:具备一定机器人学、状态估计或自动驾驶基础知识的科研人员及工程技术人员,尤其是从事SLAM算法研究或应用开发的硕士、博士研究生和相关领域研发人员。; 使用场景及目标:①用于比较EKF SLAM在不同landmark密度下的性能表现;②分析预测与更新机制同步与否对滤波器稳定性与精度的影响;③评估系统在有色噪声等非理想观测条件下的适应能力,提升实际部署中的可靠性。; 阅读建议:建议结合MATLAB仿真代码进行实验复现,重点关注状态协方差传播、观测更新频率与噪声模型设置等关键环节,深入理解EKF SLAM在复杂环境下的行为特性。稀疏 landmark 与稠密 landmark 下 EKF SLAM 性能对比实验,预测更新同时进行与非同时进行对比 EKF SLAM 性能对比实验,EKF SLAM 在有色噪声下性能实验
内容概要:本文围绕“基于主从博弈的售电商多元零售套餐设计与多级市场购电策略”展开,结合Matlab代码实现,提出了一种适用于电力市场化环境下的售电商优化决策模型。该模型采用主从博弈(Stackelberg Game)理论构建售电商与用户之间的互动关系,售电商作为领导者制定电价套餐策略,用户作为跟随者响应电价并调整用电行为。同时,模型综合考虑售电商在多级电力市场(如日前市场、实时市场)中的【顶级EI复现】基于主从博弈的售电商多元零售套餐设计与多级市场购电策略(Matlab代码实现)购电组合优化,兼顾成本最小化与收益最大化,并引入不确定性因素(如负荷波动、可再生能源出力变化)进行鲁棒或随机优化处理。文中提供了完整的Matlab仿真代码,涵盖博弈建模、优化求解(可能结合YALMIP+CPLEX/Gurobi等工具)、结果可视化等环节,具有较强的可复现性和工程应用价值。; 适合人群:具备一定电力系统基础知识、博弈论初步认知和Matlab编程能力的研究生、科研人员及电力市场从业人员,尤其适合从事电力市场运营、需求响应、售电策略研究的相关人员。; 使用场景及目标:① 掌握主从博弈在电力市场中的建模方法;② 学习售电商如何设计差异化零售套餐以引导用户用电行为;③ 实现多级市场购电成本与风险的协同优化;④ 借助Matlab代码快速复现顶级EI期刊论文成果,支撑科研项目或实际系统开发。; 阅读建议:建议读者结合提供的网盘资源下载完整代码与案例数据,按照文档目录顺序逐步学习,重点关注博弈模型的数学表达与Matlab实现逻辑,同时尝试对目标函数或约束条件进行扩展改进,以深化理解并提升科研创新能力。
内容概要:本文介绍了基于粒子群优化算法(PSO)的p-Hub选址优化问基于粒子群优化算法的p-Hub选址优化(Matlab代码实现)题的Matlab代码实现,旨在解决物流与交通网络中枢纽节点的最优选址问题。通过构建数学模型,结合粒子群算法的全局寻优能力,优化枢纽位置及分配策略,提升网络传输效率并降低运营成本。文中详细阐述了算法的设计思路、实现步骤以及关键参数设置,并提供了完整的Matlab仿真代码,便于读者复现和进一步改进。该方法适用于复杂的组合优化问题,尤其在大规模网络选址中展现出良好的收敛性和实用性。; 适合人群:具备一定Matlab编程基础,从事物流优化、智能算法研究或交通运输系统设计的研究生、科研人员及工程技术人员;熟悉优化算法基本原理并对实际应用场景感兴趣的从业者。; 使用场景及目标:①应用于物流中心、航空枢纽、快递分拣中心等p-Hub选址问题;②帮助理解粒子群算法在离散优化问题中的编码与迭代机制;③为复杂网络优化提供可扩展的算法框架,支持进一步融合约束条件或改进算法性能。; 阅读建议:建议读者结合文中提供的Matlab代码逐段调试运行,理解算法流程与模型构建逻辑,重点关注粒子编码方式、适应度函数设计及约束处理策略。可尝试替换数据集或引入其他智能算法进行对比实验,以深化对优化效果和算法差异的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值