阅读笔记:Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
将(单词嵌入,物体标签,图像区域)三元组作为输入
OSCAR引入物体标签用来缓解图像文本对齐学习
从两个方面来进行预训练(模态角度和字典角度)
A Dictionary View: Masked Token Loss.
将tag或者文本特征mask掉,然后用周围的token和图像特征来预测mask的token,类似于masked language model
A Modality View: Contrastive Loss
将图像的目标tag替换,作为polluted 图像特.
原创
2021-10-26 19:25:23 ·
1602 阅读 ·
0 评论