图文检索（28）：Fashion Image Retrieval with Text Feedback by Additive Attention Compositional Learning

简简单单的貔貅

于 2024-11-22 16:56:56 发布

阅读量326

点赞数 3

分类专栏：图文检索文章标签：人工智能计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhuzaiyebol/article/details/143973791

版权

Fashion Image Retrieval with Text Feedback by Additive Attention Compositional Learning

摘要
3 方法
结论

发布时间（2023 WACV）

标题：通过加性注意力组合学习实现带有文本反馈的时尚图像检索

文本反馈
加性注意力组合学习

摘要

任务：图像 + 修改文本 --》目标图像
本文：加性注意力的图像文本组合模块

3 方法

AACL 包含三个关键组件
(1) 用于视觉语义表示学习的图像编码器
(2) 用于自然语言表示学习的文本编码器
(3) 加性注意组合模块：根据文本修改源图像表示

3.1 图像和文本表示

图像表示
思路：
1）transformer最后一层的图像特征可能无法捕捉底层的视觉信息
2）将从 Swin Transformer 的最后一层（第 4 阶段）和倒数第二层（第 3 阶段）提取的图像标记连接起来。除非另有说明，否则我们的模型使用这 98 个图像标记进行多层次图像理解。学习到的线性投影将每个图像标记映射到 d 维，这样最终的图像表示为 ϕx 98*d
3）解释：每个图像用 98 个 token 表示，维度为 d 维

文本表示
DistilBERT 语言表示模型

3.2 加性注意力组合模块

视觉语言表示
联合表征：image表示 concat text表示

加性自

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。