Fashion Image Retrieval with Text Feedback by Additive Attention Compositional Learning
发布时间(2023 WACV)
标题:通过 加性注意力组合学习 实现带有 文本反馈 的时尚图像检索
文本反馈
加性注意力 组合学习
摘要
任务:图像 + 修改文本 --》目标图像
本文:加性注意力的图像文本组合模块
3 方法
AACL 包含三个关键组件
(1) 用于视觉语义表示学习的图像编码器
(2) 用于自然语言表示学习的文本编码器
(3) 加性注意组合模块:根据文本修改源图像表示
3.1 图像和文本表示
图像表示
思路:
1)transformer最后一层的图像特征可能无法捕捉底层的视觉信息
2)将从 Swin Transformer 的最后一层(第 4 阶段)和倒数第二层(第 3 阶段)提取的图像标记连接起来。除非另有说明,否则我们的模型使用这 98 个图像标记进行多层次图像理解。学习到的线性投影将每个图像标记映射到 d 维,这样最终的图像表示为 ϕx 98*d
3)解释:每个图像用 98 个 token 表示,维度为 d 维
文本表示
DistilBERT 语言表示模型
3.2 加性注意力组合模块
视觉语言表示
联合表征:image表示 concat text表示
加性自