网页图像标注与深度网络查询松弛解决方案
一、网页图像标注实验
1.1 实验数据
实验所用数据均从互联网抓取。图像数据集通过 HTML 解析获取,并过滤掉无意义的小图标,数据集大小为 4000 张图像。经过网页数据处理后,得到 1600 张训练图像,其余置信度分数较低的图像用于标注。数据集中有 70 个语义关键词,将共现最多的关键词分组作为类别,例如“手机”关键词组视为一个类别。新图像的标注由后验概率最大的类别中的关键词确定。全局特征为 528 维,根据 MPEG7 提取颜色和纹理特征。通过计算平均召回率、精确率和 F1 值来衡量算法质量,计算公式如下:
- 召回率(Recall):$Recall = \frac{|WC|}{|WG|}$
- 精确率(Precision):$Precision = \frac{|WC|}{|WM|}$
- F1 值(F1 measure):$F1 = \frac{2 * Recall * Precision}{Recall + Precision}$
其中,$|WG|$ 表示测试集中人工标注为标签 $w$ 的图像数量,$|WM|$ 表示算法标注为相同标签的图像数量,$|WC|$ 表示算法正确标注的图像数量。
1.2 网页数据处理的有效性
使用网页数据处理方法获取训练集时,有两个可调参数需要确定:
- $C$:判断文本是否为标题的阈值,实验中选择 $C = 0.4$。当文本为粗体、字体较大且长度不超过 5 时,$Score(text) = 0.4$。
- $T$:判断同一网页中标题和图像是否具有高语义对应性的阈值,选择 $T = 1$。当标题和图像位于同
超级会员免费看
订阅专栏 解锁全文
107

被折叠的 条评论
为什么被折叠?



