Joint Visual-Textual Embedding for Multimodal Style Search (图像+文本多模态检索)
文章总结
视觉时装搜索时能够操纵属性是一个有意义的场景。文章的背景主要是应用导向的。面向的场景是,用户在搜索一个商品时,给出一张照片和一些文本描述,并通过文本描述修改照片的某些内容。本文的解决思路是将图像和文本嵌入到一个公共空间,通过查询给出的图像嵌入和文本嵌入之间的算术运算构建该空间中的一个新向量(对应用户的目标),用该新向量通过相似度计算检索用户的目标。下图清楚展示了这一过程。
研究内容概述
一个令人惊奇的神器:向量的算术性质
“Paris” - “France” +“Italy” = “Rome
原创
2021-10-30 21:19:29 ·
1562 阅读 ·
0 评论