图像描述与文档相似度计算方法研究
在图像描述和文档相似度计算领域,有许多重要的研究成果和方法,下面将详细介绍相关内容。
图像分类器构建方法
在图像分类器的构建方面,有两种重要的分类器,分别是多词标签图像分类器和多实体标签图像分类器。
多词标签图像分类器 :为了提取域外MSCOCO图像的视觉特征,模仿Hendricks等人的方法,利用与图像对齐的字幕构建多词标签分类器。具体操作是,提取整个MSCOCO数据集中每个单词的词性(POS)标签,如名词、动词和形容词。例如,字幕“A young child brushes his teeth at the sink”包含“young (JJ)”、“child (NN)”、“teeth (NN)”等词标签,这些标签代表图像中的概念。然后,使用471个词标签,通过微调在ILSVRC12训练部分预训练的VGG - 16,使用Sigmoid交叉熵损失来训练图像分类器。提取的新图像的视觉特征表示该图像中观察到的471个图像标签的概率。对于从ImageNet图像中提取视觉特征,则使用用642个ImageNet对象类别学习的词汇分类器。
多实体标签图像分类器 :为了提取域外MSCOCO图像的语义知识,类似于词标签,使用从知识图谱注释工具(如DBpedia spotlight)获得的实体标签,在包含82,783个训练图像 - 字幕对的MSCOCO训练集上构建多实体标签分类器。总共提取了约812个唯一标签,平均每张图像注释3.2个标签。例如,对于前面提到的字幕,提取的实体标签是“Brush”和“Tooth”。同样使用Sigmoid交叉熵损失,微调在ILSVRC12
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



