前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。
其他从业者在震撼之余,也再次开始思考怎么追赶这些超级模型了。
刚好在这时,HuggingFace和法国索邦大学的一篇论文,总结出了构建视觉大模型的关键经验,给开发者指明了一条路。

这些经验涵盖了模型架构选择、训练方法、训练数据等多个方面,作者在多方比较之后给出了详尽的总结,核心要点包括这些内容:
- 想把视觉大模型搞好,架构的选择很重要。
- 语言模型对整体表现的影响,比视觉模块更大。
- 采用分阶段预训练策略,更有利于构建模型能力。
- 训练数据应包含多种类型,并注意之间的比例平衡。
可以说,HF能够打造出同规模SOTA的视觉模型Idefics2,背后依靠的都是这些经验。
Idefics2基于Mistral-7B打造,整体拥有8B的参数量,可以准确识别出手写字体。

专业人士评价称,这是一篇很好的调查报告,对视觉模型开发者很有帮助,不过同时也提醒说不要当成万金油来看。

当然也有人打趣说,什么架构数据都是浮云,有GPU才是最关键的。

倒也有些道理,不过玩笑归玩笑,还是来看看HuggingFace都带给了我们哪些经验。
来自SOTA模型开发实战
HuggingFace论文中的这些经验,来自于视觉模型Idefics2的开发过程。
与前一代Idefics1和Flamingo等同规模前SOTA相比,Idefics2在多个数据集上表现优异,甚至还超过了更大的13B模型。
同时,和在COCO数据集上略胜于Idefics2的MM1相比,Idefics2在每张图上消耗的token大幅减少。

最低0.47元/天 解锁文章
1734

被折叠的 条评论
为什么被折叠?



