论文标题
Context-I2W: Mapping Images to Context-Dependent Words for Accurate Zero-Shot Composed Image Retrieval 上下文-I2W:将图像映射到上下文相关的词语以实现准确的零样本组合图像检索
论文链接
论文作者
Yuanmin Tang, Jing Yu, Keke Gai, Jiamin Zhuang, Gang Xiong, Yue Hu, Qi Wu
内容简介
本文提出了一种新颖的上下文相关映射网络Context-I2W,旨在解决零样本组合图像检索(ZS-CIR)任务中的关键挑战。ZS-CIR任务要求在没有监督训练的情况下,基于参考图像和文本描述检索出视觉上相似的图像。Context-I2W通过动态学习意图视图选择器和视觉目标提取器两个模块,自适应地将描述相关的图像信息转换为伪词标记,从而提高检索的准确性。实验结果表明,该模型在多个ZS-CIR任务上表现出色,性能提升幅度在1.88%到3.60%之间,且在ZS-CIR领域取得了新的最先进结果。
分点关键点
-
Context-I2W框架
- Context-I2W通过意图视图选择器和视觉目标提取器两个模块,动态学习并映射图像到上下文相关的伪词标记。意图视图选择器根据上下文信息选择视觉特征,而视觉目标提取器则聚合与目标相关的局部信息。
-
零样本组合图像检索(ZS-CIR)
- ZS-CIR任务旨在在没有监督训练的情况下,执行各种组合图像检索任务。Context-I2W通过将图像和文本描述结合,生成组合查询,从而实现高效的图像检索。
-
强大的泛化能力
- Context-I2W在四个ZS-CIR任务上展示了强大的泛化能力,包括领域转换、物体组合、物体操作和属性操作。该模型在这些任务中均取得了显著的性能提升,超越了现有的最佳方法。
-
对比损失训练
- Context-I2W使用对比损失进行训练,确保伪词标记与检索到的图像之间的相似性,从而提高了模型的准确性和鲁棒性。该方法不依赖于昂贵的描述区域标签,降低了训练成本。
- Context-I2W使用对比损失进行训练,确保伪词标记与检索到的图像之间的相似性,从而提高了模型的准确性和鲁棒性。该方法不依赖于昂贵的描述区域标签,降低了训练成本。
论文代码
代码链接:https://github.com/Pter61/context-i2w
中文关键词
- 上下文相关映射
- 零样本组合图像检索
- 意图视图选择器
- 视觉目标提取器
- 对比损失
- 图像检索
AAAI论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!