这是CVPR2017的一篇做cross-modal retrieval的文章,paper和相关数据代码链接http://im2recipe.csail.mit.edu/,作者的homepage https://imatge.upc.edu/web/people/amaia-salvador。
文章要做的事情(recipe retreival):
输入:image(sentence)+dataset 输出:sentence(image) rank list
method
文章的framework如下所示。
主要是将文本和图像映射到共享的子空间,然后在子空间上做cosine similarity loss和softmax loss。
本文介绍了一种跨模态检索方法,该方法通过将文本和图像映射到共享子空间,并利用余弦相似性和softmax损失来进行检索。研究重点在于从图像检索句子或从句子检索图像。
1336

被折叠的 条评论
为什么被折叠?



