单/多模态检索的模式有四种:
- supervised
- semi-supervised
- weakly supervised
- unsupervised
从实际应用的场景考虑数据集的划分方法,retrieval set 应该是对应已经获得的所有数据(database),比如搜索引擎里已经存好的数据;而 test/query set 就对应那些还未出现的别人查询时的数据,比如搜索时输入的文本。
所以讲道理整个 retrieval set 的数据都应该可以用作 training set,即 training set = retrieval set,UGACH[1] 和 SCH-GAN[2] 在文章 notation 部分就是这么说的。
真实场景中,retrieval set 只有一部分是 labeled 的,其余都是 unlabeled 的。而在实验数据集中,实际上整个数据集都是 labeled 的。
supervised
在 supervised 设置下,training set 只是 retrieval set 中 labeled 部分的数据。
以 DCMH[3] 中对 MIR-Flickr-25K 的划分为例,整个数据集选了 2000 samples 作为 test/query set,其余的作为 database/retrieval set,然后从 retrieval set 中抽 1,0000 samples 作为 training set。
semi-supervised
semi-supervised 设置用到了整个 retrieval set,考虑其中 labeled 和 unlabeled 部分的比例。
以 GSS-SL[4] 对 wiki 数据集的设置为例,文中 Table II 的最后一列给出了 training set 中 labeled 和 unlabeled 部分的划分比例;
SCH-GAN[2]文中,NUSWIDE 的 randomly sampled 5000 images as training set、MIRFlickr 的 randomlysample 5000 images to form the supervised training set,都是指从 retrieval set 中抽出 5k 个 samples 作为 labeled samples,其余的作为 unlabeled samples(问过作者 袁明宽 Mingkuan Yuan,他回复说的)。
[5] 中 4.1 节给出了 train/test 的比例和 training set 中 labeled 和 unlabeled 部分的比例;
SSMDH[6] 中 Experiments / Datasets and Settings 一节也有具体指明 labeled 和 unlabeled 的划分。
weakly supervised
weakly supervised 的例子是 WDHT[9],做的是图像单模态 hash 检索,其 弱监督 是指没有用到 label 作为监督信息,但用 tags(NUS-WIDE 和 Flickr 的文本是 tags 的形式)辅助训练。该文用整个 retrieval set 作为 training set。
unsupervised
unsupervised 的设置,照目前看到的文章,有两种:
- 整个 retrieval set 作为 training set,如 [1];
- retrieval set 中抽部分作为 training set,如 [7,8]
References
- Unsupervised Generative Adversarial Cross-Modal Hashing
- SCH-GAN: Semi-supervised Cross-modal Hashing by Generative Adversarial Network
- Deep Cross-Modal Hashing
- Generalized Semi-supervised and Structured Subspace Learning for Cross-Modal Retrieval
- A Deep Learning Framework for Semi-Supervised Cross-Modal Retrieval with Label Prediction
- Semi-Supervised Multi-View Discrete Hashing for Fast Image Search
- Unsupervised Semantic-Preserving Adversarial Hashing for Image Search
- Semantic Structure-based Unsupervised Deep Hashing
- Weakly Supervised Deep Image Hashing through Tag Embeddings