单/跨模态检索(single-/corss-modal retrieval)数据集划分

博客介绍了单/多模态检索的四种模式,包括监督、半监督、弱监督和无监督模式。从实际应用场景考虑数据集划分,分析了不同模式下训练集的构成,如监督模式下训练集是检索集中有标签部分,半监督模式考虑有标签和无标签部分比例等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

单/多模态检索的模式有四种:

  • supervised
  • semi-supervised
  • weakly supervised
  • unsupervised

从实际应用的场景考虑数据集的划分方法,retrieval set 应该是对应已经获得的所有数据(database),比如搜索引擎里已经存好的数据;而 test/query set 就对应那些还未出现的别人查询时的数据,比如搜索时输入的文本。
所以讲道理整个 retrieval set 的数据都应该可以用作 training set,即 training set = retrieval set,UGACH[1] 和 SCH-GAN[2] 在文章 notation 部分就是这么说的。
真实场景中,retrieval set 只有一部分是 labeled 的,其余都是 unlabeled 的。而在实验数据集中,实际上整个数据集都是 labeled 的。

supervised

在 supervised 设置下,training set 只是 retrieval set 中 labeled 部分的数据。
以 DCMH[3] 中对 MIR-Flickr-25K 的划分为例,整个数据集选了 2000 samples 作为 test/query set,其余的作为 database/retrieval set,然后从 retrieval set 中抽 1,0000 samples 作为 training set。

semi-supervised

semi-supervised 设置用到了整个 retrieval set,考虑其中 labeled 和 unlabeled 部分的比例。
以 GSS-SL[4] 对 wiki 数据集的设置为例,文中 Table II 的最后一列给出了 training set 中 labeled 和 unlabeled 部分的划分比例;
SCH-GAN[2]文中,NUSWIDE 的 randomly sampled 5000 images as training set、MIRFlickr 的 randomlysample 5000 images to form the supervised training set,都是指从 retrieval set 中抽出 5k 个 samples 作为 labeled samples,其余的作为 unlabeled samples(问过作者 袁明宽 Mingkuan Yuan,他回复说的)。
[5] 中 4.1 节给出了 train/test 的比例和 training set 中 labeled 和 unlabeled 部分的比例;
SSMDH[6]Experiments / Datasets and Settings 一节也有具体指明 labeled 和 unlabeled 的划分。

weakly supervised

weakly supervised 的例子是 WDHT[9],做的是图像单模态 hash 检索,其 弱监督 是指没有用到 label 作为监督信息,但用 tags(NUS-WIDE 和 Flickr 的文本是 tags 的形式)辅助训练。该文用整个 retrieval set 作为 training set。

unsupervised

unsupervised 的设置,照目前看到的文章,有两种:

  • 整个 retrieval set 作为 training set,如 [1];
  • retrieval set 中抽部分作为 training set,如 [7,8]

References

  1. Unsupervised Generative Adversarial Cross-Modal Hashing
  2. SCH-GAN: Semi-supervised Cross-modal Hashing by Generative Adversarial Network
  3. Deep Cross-Modal Hashing
  4. Generalized Semi-supervised and Structured Subspace Learning for Cross-Modal Retrieval
  5. A Deep Learning Framework for Semi-Supervised Cross-Modal Retrieval with Label Prediction
  6. Semi-Supervised Multi-View Discrete Hashing for Fast Image Search
  7. Unsupervised Semantic-Preserving Adversarial Hashing for Image Search
  8. Semantic Structure-based Unsupervised Deep Hashing
  9. Weakly Supervised Deep Image Hashing through Tag Embeddings
交叉验证(Cross-validation)是一种常用的模型选择方法。它将训练数据等分为n份,每次训练时只使用其中n-1份作为训练集,用剩余的一份作为验证集来评估参数的性能。交叉验证通常用于选出模型中的自由参数的值,例如惩罚因子的取值。交叉验证的基本思想是将原始数据分组,一部分作为训练集,另一部分作为验证集,通过训练得到的模型在验证集上进行测试,用来评价分类器的性能指标。在机器学习问题中,通常将数据分成训练数据和测试数据,利用交叉验证来选择最优的参数,即通过改变参数的值来选择最优的参数值。 <span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [交叉验证(cross-validation)](https://blog.youkuaiyun.com/shuizhilei3334/article/details/44516925)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [交叉验证(Cross-Validation)和特征选择(Feature Selection)](https://blog.youkuaiyun.com/caimouse/article/details/60584308)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值