VIRET与VERGE:视频检索工具的新进展
在视频检索领域,不断有新的工具和技术涌现,以满足用户对高效、精准检索视频内容的需求。本文将介绍两款具有代表性的视频检索工具——VIRET和VERGE,探讨它们的特点、功能以及新的改进。
VIRET工具:与NasNet的结合
VIRET工具在视频检索方面表现出色,在相关比赛中脱颖而出。它的界面通常由针对每个检索模型的简单查询面板和可视化网格组成,可视化网格可展示匹配度最高的帧或所选帧的有序视图。
新特性
- 数据预处理 :采用了最先进的NasNet深度神经网络架构,取代了之前使用的GoogLeNet。由于新的视频数据集分辨率更高,还考虑了子图像相似性搜索,子图像通过固定网格预先定义。
- 数据模型与帧选择
- 视频分割 :V3C1视频集已有分段标识,但该分段并非用于识别镜头,因此使用3D深度卷积神经网络来自动识别每个视频的镜头集,镜头时长可用于过滤不相关镜头。
- 帧选择 :对于基于帧的检索,需要选择代表性帧。简单的方法是取中间帧,但长镜头可能包含更多语义有趣的帧,因此每个镜头可选择多个帧。可以使用基于传统描述符(如位置颜色签名)或深度卷积神经网络的选择启发式方法。为减少无关结果,考虑将视觉相似的帧分组,结果列表中只包含每组中排名最高的帧。
- 自动标注 :与去年类似,从ImageNet类别中选择一
超级会员免费看
订阅专栏 解锁全文
109

被折叠的 条评论
为什么被折叠?



