Learning Cross-modal Embeddings for Cooking Recipes and Food Images

最新推荐文章于 2024-09-10 19:21:25 发布

原创最新推荐文章于 2024-09-10 19:21:25 发布 · 739 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#cross-modal retrieval

跨媒体专栏收录该内容

23 篇文章

订阅专栏

本文介绍了一种跨模态检索方法，该方法通过将文本和图像映射到共享子空间，并利用余弦相似性和softmax损失来进行检索。研究重点在于从图像检索句子或从句子检索图像。

这是CVPR2017的一篇做cross-modal retrieval的文章，paper和相关数据代码链接http://im2recipe.csail.mit.edu/，作者的homepage https://imatge.upc.edu/web/people/amaia-salvador。
文章要做的事情(recipe retreival)：
输入：image（sentence）+dataset 　　　　　输出：sentence（image） rank list

method
文章的framework如下所示。

主要是将文本和图像映射到共享的子空间，然后在子空间上做cosine similarity loss和softmax loss。