《Vision-Language Pre-Training with Triple Contrastive Learning》/《具有三重对比学习的视觉语言预训练》
视觉语言表示学习很大程度上受益于通过对比损失(例如,InfoNCE损失)的图像-文本对齐。这种对齐策略能够最大化图像与其匹配文本之间的互信息(MI)。然而,简单地执行跨模态对齐(CMA)不能确保来自相同模态的相似输入保持接近,这可能会导致表示形式的退化。当训练前的数据有噪声时,这个问题会变得更糟。在本文中,我们提出了三重对比学习(TCL)的视觉语言预训练,利用跨模态和模态内的自监督。除了跨模态对齐(CMA),三重对比学习(TCL)还引入了一个模态内对比目标,在表征学习中提供互补的好处。
原创
2023-01-08 15:48:00 ·
533 阅读 ·
1 评论