视频语义相关搜索与标志检测技术研究
1. 视频概念标注实验
1.1 数据集与实验设置
本次实验采用 TRECVID SIN 2013 数据集,该数据集包含约 600 小时的互联网存档视频用于训练,200 小时用于测试。训练集部分标注了 346 个语义概念,测试集针对其中 38 个有真实标注的概念进行评估。
为评估概念标注性能,我们聚焦于索引问题,即给定一个概念,目标是检索出与之最相关的 2000 个视频片段。由于该数据集的真实标注数量不足以从头训练深度网络而不导致参数过拟合,我们采用了迁移学习方法。具体而言,以在 1000 个 ImageNet 类别上预训练的 ResNet - 50 网络为起点,并针对我们的数据集微调其参数。为评估方法性能,使用了平均扩展推断平均精度(MXinfAP),它是 MAP 的近似,适合该数据集的部分真实标注情况。
1.2 视觉与语义层面的概念关系
根据初步实验结果,当 k 等于 32 且 d 等于 64 时,FV - MTL 与 CCE - LC 组合达到了最佳的整体 MXinfAP。接下来,我们可视化该模型在视觉和语义层面学习到的概念关系。
在视觉层面,通过 FV - MTL 与 CCE - LC 恢复了 TRECVID SIN 数据集 15 个选定概念的稀疏模式矩阵 S。从图中可以观察到,具有相同稀疏模式的概念可归为同一组,如运输相关概念(飞机、汽车、巴士、摩托车)的第 9 和第 10 个潜在任务始终活跃,而与其他概念至少有一个不活跃,表明它们属于同一组。同时,“河流”和“购物中心”概念对应的潜在任务除第 11 个外基本不重叠,说明它们属于不同组。
在语义层面,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



