图文检索（31）：Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval

简简单单的貔貅

于 2024-12-02 15:42:12 发布

阅读量523

点赞数 4

分类专栏：图文检索文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhuzaiyebol/article/details/144181169

版权

Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval

摘要
3.方法
结论

发布时间（2023 cvpr）

标题：用于文本到图像人物检索的跨模态隐式关系推理和对齐

摘要

任务：文本识别人物
挑战：文本和图像的共同潜在空间
传统：各自提取特征，但是缺乏两种模态的对齐能力
同时利用一些显式的方法对齐，可能造成模态内部语义信息的扭曲
本文： IRRA，一个跨模态隐式关系推理和对齐框架
总结：局部视觉和文本token 之间的关系，同时增强全局的文本图像匹配
1）MLM 模型中设计了一个隐式的推理模块，将视觉信息集成到文本标记中，实现交互
2）为了全局对齐，利用KL散度最小化文本-图像相似性分布与标准化标签匹配分布

3.方法

3.1 feature extraction dual-encoder

1）直接使用 CLIP 作为初始encoder
2）ViT 作为图像编码器
3）修改的transformer，利用eos作为文本全局语义

3.2 implicit relation reasoning

MLM
MLM优化的两个属性：
1）利用掩码的静态表示作为anchor，来对齐文本/图像中的被掩码词的局部语义
2）联合嵌入空间中静态嵌入的均匀性

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。