Bipartite Graph Reinforcement Model for Web Image Annotation
Proceedings of the 15th International Conference on Multimedia 2007, ACM
- 文本信息与视觉特征相结合
- BGRM
初始候选词提取、扩展候选词生成、候选排名、二分图构造、强化学习和最终注释确定
- 1、根据图像相关本文生成初始候选标注(词)
初始候选标注不完全、不准确
- 2、(1)在大型图像数据库中检索初始词,得到一些语义相关的图像(通过基于文本的图像检索系统)【若检索到的图像视觉上与目标图像相似且描述文本与初始词相近,则两图像相似】
(2) 在语义相关的图像中,选取视觉相关的图像(通过基于内容的相似度方法),获取这些图像中的文本描述,提取扩展候选词
为了获得更多候选标注
- 3、分别对初始候选词和扩展候选词排序
- (1)初始候选词排序
视觉排名:检索结果图像和目标图像视觉相似度的均值
文本排名:初始词出现在其他初始词的检索结果中的频率(计算初始词qi与初始词qk检索结果的相似度)
- (2)扩展词排序
排序:用视觉和文本信息衡量候选词与目标图像的一致性多少
-
4、用所有候选词构建二分图,重排序所有候选词、迭代、收敛
-
(1)二分图权重:考虑是否是扩展词和相似程度
- (2)强化学习
迭代直到收敛
去除噪音词
- 5、最终注释确定方案
- 与HITS(Hypertext Induced Topic Selection)相比较
参考HITS,BGRM思想:“在二分图中,一个集合中好的顶点是被另一个集合中好的顶点所链接”
不同之处:(1)BGRM 初始化原始权重(设为一),HITS不考虑原始权重
(2)HITS每步迭代都要规范化权重,而BGRM只需在迭代前规范化邻接矩阵