论文:https://arxiv.org/pdf/2202.10401.pdf
代码:https://github.com/uta-smile/TCL
写在前面:
CPC[1]这篇论文中,作者对互信息的公式进行了分析,得到互信息下界的相反数为InfoNCE loss,即最小化InfoNCE Loss可以最大化互信息的下界,从而使得互信息最大。即对比学习的infoNCE等价于最大互信息。在TCL这篇文章中,作者即说用了对比学习,又说用了最大化互信息,实则二者都是infoNCE loss。
Summary
这篇论文是在ALBEF
TCL:三重对比学习提升多模态预训练模型
TCL论文提出在多模态预训练中使用CMA、IMC和LMI三种对比学习损失,以及ITM和MLM任务,以增强视觉-语言模型的表现。通过在COCO、VG等数据集上预训练,TCL在跨模态检索任务上取得优秀成绩,是ALBEF的扩展和改进。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



