Raki的读paper小记:SimVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

Abstract&Introduction&Related Work

  • 研究任务
    大规模端到端弱监督Visual Language Model
  • 已有方法和相关工作
    • 面临挑战标注数据的规模有限,为了提高性能,引入了各种特定于任务的辅助损失,这些设计选择使VLP的预训练范式复杂化,为进一步提高质量造成了瓶颈
    • 基于预训练-finetune的模型缺少zero-shot的能力
    • 之前的工作都是基于特定的任务上,很依赖于目标检测模型和数据
    • 最近的一些研究也探索了没有目标检测模块的VLP,但它们仅使用小规模的纯预训练数据,因此其zero-shot能力有限
  • 创新思路
    • 通过仅利用弱对齐图像-文本对上的语言建模目标,显著简化了VLP
    • 仅仅使用了language model 的 loss
  • 实验结论
    在判别和生成的vision-language benchmarks都达到了sota
    在这里插入图片描述

SimVLM

MLM风格的预训练已在以前的VLP模型中广泛采用,其中输入是图像-文本对,模型需要通过利用图像ROI(region-of-interest)特征来预测Masked Token

或者,单向语言建模(LM)训练模型,以在正向自回归因子分解下直接最大化序列x的可能性:
在这里插入图片描述

PROPOSED OBJECTIVE: PREFIX LANGUAGE MODELING

受LM损失预训练引入的zero-shot能力的启发,我们提出使用Prefix Language Modeling (PrefixLM)预处理视觉-语言表示

PrefixLM不同于标准语言模型,因此它允许对前缀序列进行双向注意力(例如,等式(3)中的x< T p T_p Tp ),并且仅对剩余的token(例如,x)进行自回归因子分解≥式(3)中的 T p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值