基于标签转移的非参数场景解析技术详解
1. 不同场景检索技术的影响
在场景解析系统中,场景检索技术起着关键作用。除了使用 GIST 距离来检索最近邻图像外,还尝试了 HOG 视觉词的空间金字塔直方图交集以及真实标注的空间金字塔直方图交集这两种技术。以下是不同检索技术在相关数据库上的表现:
| 检索技术 | LMO 数据库表现 | SUN 数据库表现 |
| ---- | ---- | ---- |
| GIST | 略优于 HOG 视觉词 | 性能低于 HOG 视觉词 |
| HOG 视觉词 | 性能略低于 GIST | 表现更优 |
通过实验发现,在 LMO 数据库中,GIST 基于的检索性能稍好;而在 SUN 数据库中,HOG 视觉词特征则更胜一筹。此外,还探索了在理想场景匹配情况下标签转移框架的上限,即使用真实标注来检索最近邻图像,此时在相关数据库上可达到 83.79% 的识别率。
2. 训练样本比例对系统性能的影响
为了深入了解数据驱动的系统,在固定测试集的情况下,评估了系统性能与训练样本比例的关系。具体操作步骤如下:
1. 对于每个固定的比例,从原始数据库中随机抽取样本形成一个小的训练数据库。
2. 在这个小训练数据库上评估系统性能。
3. 针对每个比例重复上述实验 15 次,以获得系统性能的均值和标准差。
实验结果表明,识别率明显依赖于训练数据库的大小。通过对最后 10 个数据点进行外推,如果将训练数据增加 10 倍,识别率可能会提高到 84.16%。不过,这种线性外推没有考虑到潜在的饱和问题,当使用超过 10% 的训练样本时,就可能出现饱和现象,这也说明
超级会员免费看
订阅专栏 解锁全文
2147

被折叠的 条评论
为什么被折叠?



