深度学习中的零样本学习与图像视频字幕生成
1. 零样本学习概述
零样本学习(Zero-Shot Learning,ZSL)致力于解决识别训练集中缺失类别的问题。它从机器学习和计算机视觉研究人员寻找更接近人类学习识别物体类别的方法的尝试发展而来,如今旨在应对有标签数据增长速度远慢于数据总量增长速度这一问题,因为仅靠监督学习无法为许多实际应用提供令人满意的解决方案。
1.1 关键要素
识别先前未见过类别的关键在于,所有类别(包括已见过和未见过的)都要有除传统标签之外的更多信息。对于每个类别,我们需要有反映识别所用模态特征的补充信息(如果是图像识别,则为视觉特征)。这些特征与目标模态之间的关系可以从已见过的类别中学习,然后用于识别未见过的类别。
1.2 现有方法及问题
大多数ZSL工作利用了一些中小规模数据集,这些数据集以属性形式提供了补充信息,以支持ZSL方法的开发。然而,在一般应用中,需要处理大规模甚至开放类别的情况,因此需要寻找其他方法来识别相关的补充信息源,并在ZSL中加以利用。
对于大规模的ImageNet数据集,已经找到了一些现成的补充信息源,包括类名的词嵌入、以类为节点的基于WordNet的概念层次结构以及WordNet中的简短文本定义。虽然这使得ZSL方法能够应用于大规模数据集,但在ImageNet的未见过类别上获得的当前最佳准确率仍不尽如人意。这是因为这些信息源提供的信息主要反映了概念关系,而不是类别的视觉特征。
1.3 现有补充信息源的局限性
- 词嵌入 :通常从通用文本语料库(如Wikipedia)中开发而
零样本学习与字幕生成技术解析
超级会员免费看
订阅专栏 解锁全文
7026

被折叠的 条评论
为什么被折叠?



