image-text matching(五)Adaptive Cross-modal Embeddings for Image-Text Alignment
ADAPT:自适应跨模态嵌入图像-文本匹配
最新推荐文章于 2024-09-30 18:14:32 发布
ADAPT是一个图文匹配模型,通过利用不同模态的实例调整中间表示,增强重要信息并聚焦关键细节。该模型采用对称流程,如T2I,先进行模态增强,再通过self-attention得到增强视觉特征,进而计算与文本的相似度。实验结果显示,ADAPT在图像-文本对齐中表现出有效性,并且其引入的中央凹模块提高了效率。


最低0.47元/天 解锁文章
1628

被折叠的 条评论
为什么被折叠?



