PaliGemma 2: A Family of Versatile VLMs for Transfer

本文是LLM系列文章,针对《PaliGemma 2: A Family of Versatile VLMs for Transfer》的翻译。

PaliGemma 2:用于传输的多功能VLMs系列

摘要

PaliGemma 2是基于Gemma 2语言模型家族的PaliGemmar开放视觉语言模型(VLM)的升级版。我们将PaliGemma也使用的SigLIP-So400m视觉编码器与从2B到27B的整个Gemma 2模型相结合。我们在多个阶段以三种分辨率(224px2、448px2和896px2)训练这些模型,使其具备通过微调进行传输的广泛知识。由此产生的涵盖不同模型大小和分辨率的基础模型系列使我们能够研究影响迁移性能的因素(如学习率),并分析任务类型、模型大小和解决方案之间的相互作用。我们进一步增加了PaliGemma范围之外的传输任务的数量和广度,包括不同的OCR相关任务,如表格结构识别、分子结构识别、乐谱识别,以及长细粒度字幕和射线照相报告生成,PaliGemma2在这些任务上获得了最先进的结果。

1 引言

2 相关工作

3 模型

4 实验

5 结论

通过PaliGemma 2,我们推出了一个新的开放式重量模型系列,涵盖了广

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值