基于非抽象视觉关键词的语义自动图像标注
1. 引言
自动图像标注旨在根据图像的视觉内容自动生成文本标签,这种基于内容的自动图像标注方法能在视觉内容和标注之间建立良好的联系。然而,现有的基于内容的自动图像标注模型大多存在一个问题,即没有考虑对应关键词的视觉表示,导致最终标注结果中出现大量不相关的标注。为解决这一问题,提出了一种基于相关视觉关键词的新自动图像标注模型(NAVK)。
2. 相关工作
- Machine Translation Model :Duygulu等人将图像标注视为两种语言之间的翻译问题,一种是图像内容的视觉词汇,另一种是真实的文本词汇。他们使用归一化切割对图像进行分割,然后用K - Means算法对这些区域进行聚类,图像标注可看作从视觉词汇块到语义关键词的翻译过程。
- Cross Media Relevance Model (CMRM) :Jeon等人使用语义标签和视觉单词的联合概率来标注图像,但使用与翻译模型相同的离散特征,不可避免地会丢失一些有用的视觉信息。
- Continuous Relevance Model (CRM) :Lavrenko等人直接利用图像区域的连续特征,并使用非参数高斯核连续估计视觉内容的生成概率。
- Multiple Bernoulli Relevance Model (MBRM) :Feng等人使用矩形网格代替复杂的分割算法来划分图像,并应用伯努利分布代替多项分布来描述词汇的生成分布。
超级会员免费看
订阅专栏 解锁全文
6193

被折叠的 条评论
为什么被折叠?



