视频检索工具的创新与优化
在视频检索领域,已知物品和临时视频搜索任务一直是具有挑战性的难题。随着时间的推移,相关竞赛推动了技术的发展,许多工具不断涌现并进行改进。本文将介绍两款具有创新性的视频检索工具,包括其特点、检索模型以及界面设计等方面。
1. SIRET视频检索工具的重新审视
自2012年以来,视频浏览器展示会(VBS)竞赛汇聚了众多专注于交互式视频检索的研究团队。随着数据集的不断增大,任务的难度也越来越高。过去几年中,获胜的工具大多在多个方面依赖深度卷积神经网络。此次介绍的SIRET视频检索工具,基于三种不同的查询制定方法,即关键词查询、颜色草图查询和示例图像查询,并且对底层检索模型进行了改进,还增加了额外的排名结果可视化方法。
1.1 重新审视的检索模型
该工具支持多种查询方式,下面详细介绍其底层检索模型。检索模型仅在选定的一组代表性关键帧中进行搜索,而最佳匹配结果的可视化可以利用额外均匀提取的关键帧(每秒四帧)。
- 关键词查询
- 标签选择 :之前的版本使用ImageNet分类模型自动为关键帧分配标签,但标签集对于大多数已知物品搜索(KIS)任务不够充分。在重新审视的关键词搜索检索模型中,选择了从包含超过500个示例图像的ImageNet类中手动挑选的一组标签,目前已选择了1390个标签,未来可能会增加。
- 分类模型 :采用重新训练的GoogLeNet初始架构作为分类模型。训练时,除最后一层外,权重初始化为ILSVRC值,最后一层使用新标签和相应示例图像进行训练,直到训练数据准确性停止提高,然后再对