本文是LLM系列文章,针对《PaliGemma 2: A Family of Versatile VLMs for Transfer》的翻译。
摘要
PaliGemma 2是基于Gemma 2语言模型家族的PaliGemmar开放视觉语言模型(VLM)的升级版。我们将PaliGemma也使用的SigLIP-So400m视觉编码器与从2B到27B的整个Gemma 2模型相结合。我们在多个阶段以三种分辨率(224px2、448px2和896px2)训练这些模型,使其具备通过微调进行传输的广泛知识。由此产生的涵盖不同模型大小和分辨率的基础模型系列使我们能够研究影响迁移性能的因素(如学习率),并分析任务类型、模型大小和解决方案之间的相互作用。我们进一步增加了PaliGemma范围之外的传输任务的数量和广度,包括不同的OCR相关任务,如表格结构识别、分子结构识别、乐谱识别,以及长细粒度字幕和射线照相报告生成,PaliGemma2在这些任务上获得了最先进的结果。
1 引言
2 相关工作
3 模型
4 实验
5 结论
通过PaliGemma 2,我们推出了一个新的开放式重量模型系列,涵盖了广