Stetman读论文小记:Understanding and Constructing Latent Modality Structures in Multi-Modal Representation

参与实验室相关课题精读的一篇论文。

全文介绍

        多模态学习中,如何将语言信息与图片信息相融合进行训练一直是研究的核心问题。现在主流的两种研究方向中,一种将两种模态的表示统一到一个编码器中,通常将图像和文本标记化为序列;另一种研究方法是用特定模态编码器分别表示图像和文本模态,并利用对比学习来调整模态,从而在多个下游应用中实现最先进的性能。

        尽管对比损失(Contrastive loss)被越来越多地用于从多种模态中学习表征,在极限情况下,对比损失的性质会促使模态在潜在空间中彼此完全匹配。然而,衔接和调整两种模态是否总能为下游任务带来益处(22年的一篇文章指出未必),模态对齐如何影响下游任务的表现仍是未决问题。 

        在本文中,基于信息论的论证,作者首先证明了对于下游预测任务来说,精确的模态对齐一般是次优的。因此,作者主张提高性能的关键在于有意义的潜在模态结构,而不是完美的模态对齐。为此,作者提出了三种构建潜在模态结构的通用方法:

        1)通过深度特征分离实现的模态内正则化 ;

        2)通过布朗桥进行的模态间正则化;

        3)通过几何一致性实现的内部间正则化;

并在两种流行的多模态表征学习框架上进行了广泛的实验:基于 CLIP 的双塔模型和基于 ALBEF 的融合模型。

构建潜在结构来改进多模态学习示例(如下图): 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值