背景
用于跨模态检索的多义词的视觉语义嵌入,论文被CVPR2019接收
摘要
visual-semantic embedding的目标是找到一个公共空间,在这个空间中相关的视觉和文本彼此之间比较接近。当前大多数方法都学习将实例映射到共享空间中单个点的内嵌式嵌入函数(映射是一对一的)。不幸的是,内射式嵌入不能有效地处理具有多种可能含义的多义词实例。最好情况下,它只能找到不同含义的平均的表达。
在这项工作中,作者提出了多义词实例嵌入网络(PIE-Nets),通过利用自注意力机制和 residual 学习,将局部引导的特征和全局的特征整合起来,能够计算同一个实例的多个不同表达。为了学到视觉语义的嵌入,我们把两个 PIE-Nets 结合起来,在多实例学习的框架中共同优化它们。
动机
之前的方法一对一映射解决多义词,存在的问题:
1.迫使映射到一个可能是错误的点,最好的情况,也只是多种不同含义的平均表达
2.部分跨域联系。例如一句话可能只描述了图像的一部分(这条caption只能与图像中部分regions完美对齐)
解决问题的方式:
把实例的嵌入问题定义成一个一对多的映射任务;
优化映射函数,使得其对模棱两可的实例和部分跨域的联系鲁棒。
框架

方法
PIE-Net 模型通过结合其输入的全局和局部信息来提取每个实例的K个embedding。具体做法:
①通过使用多头自注意模块来关注输入实例的不同部分(例如
多义词视觉语义嵌入:跨模态检索的PIE-Net

该研究提出PIE-Net模型,为解决跨模态检索中多义词的问题,通过自注意力机制和残差学习融合局部和全局特征,生成多个实例表示。通过多实例学习损失和多样性损失优化,提高模型对部分跨模态关联的鲁棒性。
最低0.47元/天 解锁文章
2365

被折叠的 条评论
为什么被折叠?



