InternVL2.5技术报告共读精彩回顾,这样的圆桌多来亿点点!

「社区圆桌」是书生大模型开源社区精心打造的一项长期活动,旨在为社区成员提供一个开放、共享的交流学习平台。通过不定期举办线上与线下的圆桌会议,帮助社区成员深入了解书生大模型背后的技术细节,共同推动社区的成长与创新。

近期 InternVL2.5 发布,性能与 GPT-4o 和 Claude-3.5-Sonnet 等领先商业模型相媲美,成为首个在 MMMU 上超过 70% 的开源模型,在开源社区受到广泛好评。

为响应社区小伙伴更深入了解 InternVL2.5 技术细节的需求,2024 年 12 月 18 日晚 8 点,书生社区特别举办了 InternVL2.5 专题圆桌会议。本次活动由书生大模型开源社区的贡献者、ACL 2024 论文一作、东北大学数据挖掘组的王培东组织,圆桌会议分为「共读技术报告」「圆桌讨论」和「社区共建任务发布」三个环节,共吸引了 100 位社区成员报名,其中近 50 位同学全程参与 2 个小时的圆桌,反响热烈。

「共读技术报告」环节,书生大模型开源贡献者王培东与社区成员分享了他近期研读 InternVL2.5 技术报告的收获,介绍了 InternVL2.5 系列模型的领先性能,分享了如下论文的核心发现:

  • 「大型视觉编码器和高效的训练策略显著减少了训练数据的依赖」与配备 600M 视觉编码器的 Qwen2-VL-72B 相比,InternVL2.5-78B 配备了 6B 视觉编码器,并且InternVL2.5使用了渐进扩展策略(Progressive Scaling Strategy,见3.3节)。这两种改进使得 InternVL2.5-78B 在使用仅 1/10 训练Token的情况下,仍能取得更好的性能,这大大降低了扩展多模态大语言模型的探索成本。渐进扩展策略在资源受限的环境中尤为有利,通过最大化预训练组件的重用,最小化冗余计算,并实现能够处理复杂视觉语言任务的高效模型训练。

  • 「数据质量至关重要」在将 InternVL 从 2.0 升级到 2.5 的过程中,尽管数据集规模翻倍,但通过严格的筛选,数据质量得到了显著提升。研究团队采用了数据打包、数据质量评估、重复模式过滤等数据组织技术,不仅提高了 GPU 利用率,还显著增强了测试时扩展策略的有效性,从而大幅提升了模型的性能和用户体验。值得一提的是,与大多数现有的开源多模态大语言模型在 MMMU 和 OlympiadBench 等链式推理(CoT)任务中表现不佳不同,我们的模型在这些任务中展现了卓越的性能,进一步证明了数据组织技术的有效性。

  • 测试时扩展对复杂的多模态问答任务有益测试时扩展即 test-time scaling (又称 inference-time scaling)指另一条增强大模型性能的技术路线,随着o1的推出而爆火。扩展测试/推理时的计算资源,这样就可以在不用训练的情况下,扩展模型性能。在 MMMU 等挑战性任务中,配备 CoT 的 InternVL2.5-78B 达到了70.1%,比直接回答选项高出3.7个百分点。随后,研究团队成功验证了 CoT 可以进一步与多数投票结合,带来额外的改进。

在此环节的尾声,贡献者王培东高度赞赏了 InternVL2.5 开源力度所展现的诚意。点击链接:原文链接icon-default.png?t=O83Ahttps://aicarrier.feishu.cn/wiki/VFYcwkO4RitoCHkd2ZiciCgNnze可查看王培东翻译整理的 InternVL2.5 技术报告解读,供大家进一步参考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值