图文检索(28):Fashion Image Retrieval with Text Feedback by Additive Attention Compositional Learning

Fashion Image Retrieval with Text Feedback by Additive Attention Compositional Learning


发布时间(2023 WACV)


标题:通过 加性注意力组合学习 实现带有 文本反馈 的时尚图像检索

文本反馈
加性注意力 组合学习

摘要

任务:图像 + 修改文本 --》目标图像
本文:加性注意力的图像文本组合模块

3 方法

AACL 包含三个关键组件
(1) 用于视觉语义表示学习的图像编码器
(2) 用于自然语言表示学习的文本编码器
(3) 加性注意组合模块:根据文本修改源图像表示

3.1 图像和文本表示

图像表示
思路:
1)transformer最后一层的图像特征可能无法捕捉底层的视觉信息
2)将从 Swin Transformer 的最后一层(第 4 阶段)和倒数第二层(第 3 阶段)提取的图像标记连接起来。除非另有说明,否则我们的模型使用这 98 个图像标记进行多层次图像理解。学习到的线性投影将每个图像标记映射到 d 维,这样最终的图像表示为 ϕx 98*d
3)解释:每个图像用 98 个 token 表示,维度为 d 维

文本表示
DistilBERT 语言表示模型

3.2 加性注意力组合模块

视觉语言表示
联合表征:image表示 concat text表示

加性自

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值