单/跨模态检索（single-/corss-modal retrieval）数据集划分

最新推荐文章于 2025-05-03 14:17:21 发布

HackerTom

最新推荐文章于 2025-05-03 14:17:21 发布

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： cross-modal retrieval semi-supervised

本文链接：https://blog.youkuaiyun.com/HackerTom/article/details/95592859

机器学习专栏收录该内容

121 篇文章

订阅专栏

博客介绍了单/多模态检索的四种模式，包括监督、半监督、弱监督和无监督模式。从实际应用场景考虑数据集划分，分析了不同模式下训练集的构成，如监督模式下训练集是检索集中有标签部分，半监督模式考虑有标签和无标签部分比例等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单/多模态检索的模式有四种：

supervised
semi-supervised
weakly supervised
unsupervised

从实际应用的场景考虑数据集的划分方法，retrieval set 应该是对应已经获得的所有数据（database），比如搜索引擎里已经存好的数据；而 test/query set 就对应那些还未出现的别人查询时的数据，比如搜索时输入的文本。
所以讲道理整个 retrieval set 的数据都应该可以用作 training set，即 training set = retrieval set，UGACH^[1] 和 SCH-GAN^[2] 在文章 notation 部分就是这么说的。
真实场景中，retrieval set 只有一部分是 labeled 的，其余都是 unlabeled 的。而在实验数据集中，实际上整个数据集都是 labeled 的。

supervised

在 supervised 设置下，training set 只是 retrieval set 中 labeled 部分的数据。
以 DCMH^[3] 中对 MIR-Flickr-25K 的划分为例，整个数据集选了 2000 samples 作为 test/query set，其余的作为 database/retrieval set，然后从 retrieval set 中抽 1,0000 samples 作为 training set。

semi-supervised

semi-supervised 设置用到了整个 retrieval set，考虑其中 labeled 和 unlabeled 部分的比例。
以 GSS-SL^[4] 对 wiki 数据集的设置为例，文中 Table II 的最后一列给出了 training set 中 labeled 和 unlabeled 部分的划分比例；
SCH-GAN^[2]文中，NUSWIDE 的 randomly sampled 5000 images as training set、MIRFlickr 的 randomlysample 5000 images to form the supervised training set，都是指从 retrieval set 中抽出 5k 个 samples 作为 labeled samples，其余的作为 unlabeled samples（问过作者袁明宽 Mingkuan Yuan，他回复说的）。
[5] 中 4.1 节给出了 train/test 的比例和 training set 中 labeled 和 unlabeled 部分的比例；
SSMDH^[6] 中 Experiments / Datasets and Settings 一节也有具体指明 labeled 和 unlabeled 的划分。

weakly supervised

weakly supervised 的例子是 WDHT^[9]，做的是图像单模态 hash 检索，其 弱监督 是指没有用到 label 作为监督信息，但用 tags（NUS-WIDE 和 Flickr 的文本是 tags 的形式）辅助训练。该文用整个 retrieval set 作为 training set。