Abstract&Introduction&Related Work
- 研究任务
大规模端到端弱监督Visual Language Model - 已有方法和相关工作
- 面临挑战标注数据的规模有限,为了提高性能,引入了各种特定于任务的辅助损失,这些设计选择使VLP的预训练范式复杂化,为进一步提高质量造成了瓶颈
- 基于预训练-finetune的模型缺少zero-shot的能力
- 之前的工作都是基于特定的任务上,很依赖于目标检测模型和数据
- 最近的一些研究也探索了没有目标检测模块的VLP,但它们仅使用小规模的纯预训练数据,因此其zero-shot能力有限
- 创新思路
- 通过仅利用弱对齐图像-文本对上的语言建模目标,显著简化了VLP
- 仅仅使用了language model 的 loss
- 实验结论
在判别和生成的vision-language benchmarks都达到了sota
SimVLM
MLM风格的预训练已在以前的VLP模型中广泛采用,其中输入是图像-文本对,模型需要通过利用图像ROI(region-of-interest)特征来预测Masked Token
或者,单向语言建模(LM)训练模型,以在正向自回归因子分解下直接最大化序列x的可能性:
PROPOSED OBJECTIVE: PREFIX LANGUAGE MODELING
受LM损失预训练引入的zero-shot能力的启发,我们提出使用Prefix Language Modeling (PrefixLM)预处理视觉-语言表示
PrefixLM不同于标准语言模型,因此它允许对前缀序列进行双向注意力(例如,等式(3)中的x< T p T_p Tp ),并且仅对剩余的token(例如,x)进行自回归因子分解≥式(3)中的 T p